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机 器 学 习 是 一 门 多 领域 交 久 学科， 涉及 概率 论 、 统 计 学 、 通 近 论 、 凸 分 析 、 算 法 复杂 上 度 等 多 门 学 
科 ， 专 门 研究 计算 机 怎样 模拟 或 实现 人 类 的 学 习 行 为 。 机 器 学 习 是 人 工 智 能 的 核心 ， 是 使 计算 机 有 具有 
智能 的 根本 途径 。 

本 书 通过 对 机 器 学 习 的 背景 知识 、 算 法 流程 、 相 关 工 具 、 实 践 案例 以 及 知识 图 谱 等 内 容 的 讲解 ， 
全 面 介 绍 了 机 器 学 习 的 理论 基础 和 实践 应 用 。 书 中 涉及 机 器 学 习 领 域 的 多 个 典型 算法 ， 并 详细 给 出 了 
机 器 学 习 的 算法 流程 。 

本 书 适 合 任何 有 一 定数 据 功底 和 编程 基础 的 读者 阅读 。 通 过 阅读 本 书 ， 读 者 不 仅 可 以 了 解 机 器 学 
习 的 理论 基础 ， 也 可 以 参照 一 些 典 型 的 应 用 案例 拓展 自己 的 专业 技能 。 同 时 ， 本 书 也 适合 计算 机 相关 
专业 的 学 生 以 及 对 人 工 智 能 和 机 器 学 习 感 兴趣 的 读者 阅读 。 
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近年 来 , 在 IT BEACH RNUEA LIBE. AlphaGo 与 围棋 选手 的 人 机 大 战 更 
是 让 我 们 领略 到 人 工 智 能 技术 巨大 洪 力 的 同时 ， 又 将 人 工 智能 推 向 了 一 个 新 的 制高点 。 

人 工 智能 的 发 展 得 益 于 云 计算 和 大 数据 技术 的 成 熟 与 普及 。 和 人 工 智 能 相关 的 还 有 两 
个 核心 词 社 一 一 机 器 学 习 和 深度 学 习 。 这 三 者 有 着 什 么 样 的 关系? 所 谓 人 工 智 能 ,通俗 地 
讲 是 指 由 人 工 制 造 出 来 的 系统 所 表现 出 来 的 智能 。 人 工 智能 研究 的 核心 问题 包括 推理 、 知 
识 、 交 流 、 感 知 、 移 动 和 操作 物体 的 能 力 。 而 机 器 学 习 是 人 工 智能 的 一 个 分 文 ， 很 多 时 候 
Nase ILE RAAT AERA el. DRS OR BE, ELAR 
历史 数据 中 学 习 规 律 ， 从 而 对 新 的 样本 做 出 知 能 识别 或 对 末 来 做 了 预测。 深度 学 习 是 机 器 学 
习 的 一 个 新 领域 。 之 所 以 称 为 “深度 ”， 是 因为 前 面 说 的 机 器 学 习 是 浅 层 的 学 习 ， 主 要 基 
于 概率 统计 、 矩阵 或 图 模型 而 得 出 的 分 析 结 论 。 深度 学 习 的 概念 源 于 人 工 神经 网 络 的 研究 ， 
它 基 于 神经 网 络 框 保 ,通过 模拟 人 脑 学 习 的 方式 来 处 理 数据 。 在 人 工党 能 实践 中 ， 数 据 是 
载体 和 基础 ， 智 能 是 追求 的 目标 ， 而 机 器 学 习 则 是 从 数据 通 往 智 能 的 技术 桥架 。 因 此 , 在 
人 工 智 能 领域 ,机 妖 学 习 才 是 核心 ， 是 现代 人 工党 能 的 木质 。 
人 工 智能 的 火热 使 市 场 上 对 机 需 学 习 人 才 的 需求 不 断 提高 , 很 多 从 事 软件 开发 的 程序 
纷纷 转行 投向 机 顺 学 习 领 域 。 但 机 器 学 习 对 人 才 的 技术 和 理论 水 平 要 求 都 非 党 高， 除了 
要 掌握 统计 学 中 各 种 复杂 的 机 器 学 习 算法 的 理论 推导 外 ,还 要 懂 计 算 机 算法 的 实现 逻辑 以 
BAAS. 仆人 二 生理] 从 

本 书 是 以 应 用 场景 为 导向 ， 以 代码 实现 为 样 例 贯 罕 始 终 ， 并 融入 了 通俗 昂 懂 的 理论 知 
识 。 对 于 机 融 学 习 爱 好 者 和 想 进 入 相关 领域 的 从 业者 来 说 ， 是 一 本 值得 推荐 的 好 书 。 

从 2015 年 开始 ， 我 有 蔷 与 作者 在 同一 个 团队 工作 ， 一 起 设计 并 人 研发 阿里 云 的 机 瑚 学 
习 平 台 一 一 PAI。 作 者 对 机 辟 学 习 的 理解 以 及 产品 上 的 设计 思想 都 在 本 书 中 完美 地 呈现 ， 
值得 准备 进入 机 顺 学 习 领 域 的 爱好 者 和 从 业者 好 好 品读 。 

感谢 作者 让 我 在 新 书 出 版 之 前 先睹为快 。 
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一 刘 吉 折 


阿里 云 高 级 专家 








致谢 


感谢 我 的 父母 这 些 年 对 我 的 疏 励 ， 感 谢 我 的 文 朋 友 ， 家 人 的 文 持 永远 是 我 的 源 动 力 ， 
让 你 们 生活 得 竺 福 是 我 备 斗 的 目标 。 感 谢 我 的 大 学 同学 ,特别 是 本 科 箱 售 的 室友 ， 你 们 是 
我 心中 的 一 股 清 疙 。 最 后 我 要 特别 感谢 我 的 同事 ， 感 谢 怎 狗 、 不 老 、 吉 哲 、 云 即 、 页 总 、 
品 道 等 人 以 及 UED 小 团队 ， 感 谢 你 们 对 我 工作 上 的 文 持 和 帮助 。 在 阿里 云 大 家 许 中 ,我 
工作 得 很 快乐 , 个 人 成 长 也 非 首 迅 速 。 同 时 ， 我 也 非 贡 感谢 出 版 社 的 编 狂 明 俊英 在 本 书 与 
作 期 间 为 我 所 供 建议 和 帮助 。 

最 后 对 自己 这 段 时 间 的 写作 过 程 做 一 个 总 结 ， 最 大 的 感触 是 , 在 这 样 快速 紧张 的 生活 
RLLTE Ze P, 连续 8 个 月 坚持 做 一 件 事情 是 非常 需要 冰 力 的 。 每 天 下 班 之 后 坚持 学 习 和 
写作 2 小 时 , CERE AR ERA OST EDE, 但 是 这 份 坚 将 换 来 了 将 近 500 小 时 的 时 间 用 来 “元 
电 ”。 在 这 段 时 间 中 ， 写 作 已 经 成 为 我 的 一 种 生活 方式 ,在 WE, FAAEE, EREHE 
上 上、 在 厕所 中 ……' 很 多 地 方 都 留 下 了 思考 和 回忆 。 无 论 最 终 能 做 到 什么 程度 ， 都 希望 目 己 
可 以 继续 把 这 样 的 疝 情 你 持 下 去 。 节 后 感 斋 所 有 在 工作 和 学 习 中 给 过 我 帮助 的 入 ， 也 感谢 
所 有 拒绝 我 、 批 评 过 我 的 入 ， 因 为 有 你 们 才 有 了 这 本 书 。 
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人 工 智 能 是 近年 来 非常 火 的 话题 ， 人 们 似乎 看 到 了 在 某 些 领 域内 机 如 智能 取代 人 力 
的 可 能 性 。 之 所 以 入 们 可 以 得 到 这 样 的 判断 ， 主 要 是 基于 以 下 儿 方 面 原因 : Bea SK 
的 发 展 ， 人 类 社会 积累 了 大 量 的 数据 可 供 分 析 ; 机 带 学 习 的 算法 不 断 和 迭代 ， 特 别 是 近年 
来 随 看 深度 学 习 的 发 展 ， 人 们 从 理论 层面 取得 了 实质 性 笑 破 ; MANAA, 
云 计算 让 计算 资源 不 于 成 为 瓶 领 。 我 们 可 以 把 人 工 和 六 能 看 作 一 个 数据 挖 所 体系 ， 在 这 个 
体系 当中 , 机 絮 学 习 的 作用 主要 是 学 习 历 史 数 据 中 的 经 验 , 把 这 些 经 验 构 建成 数学 模型 。 
人 类 利用 机 希 学 习 算 法 生成 的 模型 ， 束 可 以 解决 日 痢 的 一 些 问题 ， 如 商品 推荐 和 对 股票 
涨 跌 的 预测 等 。 

以 上 谈 到 了 机 希 学 习 的 主要 作用 ,我 们 册 来 了 解 机 带 学 习 在 业务 中 的 应 用 ， 其 实 机 需 
学 习 算 法 正在 逐步 向 “平民 化 ”演变 。 早 些 时 候 ， 只 有 一 些 规模 比较 大 的 公司 会 投入 资源 
在 智能 算法 的 研究 上 ， 因 为 这 些 算法 需要 大 量 的 数据 积 素 以 及 计算 资产， 而 且 整 个 业务 杠 
染 跟 算法 的 结合 也 需要 耗费 很 大 人 力 , 所 以 只 有 少数 数据 业务 量 达 到 一 定 规模 的 公司 会 在 
这 方面 投入 。 但 是 随 着 各 种 开源 算法 框 染 的 发 展 以 及 计算 资产 的 价格 走低 ， 机 各 学 习 不 于 
古 “ 姥 侈 品 ”"， 很 多 规模 不 大 的 公司 也 开始 尝试 用 机 区 学 习 算法 生成 的 模型 来 指导 目 寺 业 
务 ， 用 数据 来 解决 业务 问题 是 代价 最 小 的 方式 ， 而 且 效 末 会 随 着 数据 量 的 积 素 变 得 越 来 越 
明显 。 机 妖 学 习 算法 正在 帮助 越 来 越 多 的 企业 实现 转型 ， 从 传统 的 商业 智能 (Business 
Intelligence, BI) 驱动 到 人 工 智 能 (Artificial Intelligence, AI) 驱动 。 通 过 平日 里 与 客户 打 
交道 , 我 们 可 以 了 解 到 , 现在 不 只 是 互联 网 公司 , 更 多 传统 行业 ， 如 教育 、 地 产 和 医疗 等 ， 
也 在 符 试 把 自己 的 业务 数据 上 传 到 云 ， 通 过 机 顺 学 习 算法 来 提升 目 己 的 业务 竞争 力 。 

综 上 所 述 , 业务 与 机 融 学 习 算法 的 结合 很 有 可 能 是 下 一 阶段 行业 变 申 的 驱动 力 ， 如 末 
回 守 原来 的 传统 技术 ,不 科 试 提升 业务 的 数据 驱动 力 ， 企业 很 有 可 能 在 这 一 站 新 的 浪潮 中 
被 淘 状 。 本 书 和 尝试 将 算法 与 实际 的 业务 实 成 相 结合 , 将 对 机 带 学 习 的 全 链 路 逐一 进行 介绍 。 
在 摘 述 算法 理论 的 时 候 ， 本 书 尽 可 能 用 更 直 日 匈 懂 的 语句 和 图 示 来 蔡 代 公式 。 画 外 ,， 为 了 
帮助 读者 更 有 成 效 地 理解 机 融 学 习 算 法 的 使 用 处 辑 ， 书 中 不 单 介绍 了 算法 ,还 对 整个 数据 
挖掘 的 全 流程 ， 包 括 数 据 预 处 理 、 特 征 工 程 、 训 练 以 及 预测 、 评 佑 进行 了 介绍 。 而 且 本 书 
还 通过 中 实 案 例 的 数据 ,在 各 种 不 同业 务 场 景 下 对 整个 数据 挖 据 流 程 进行 了 证 细 介 绍 。 此 
外 ， 书 中 还 简 早 地 介绍 了 深度 学 习 和 知识 图 谱 这 两 个 未 来 可 能 被 更 多 关注 的 领域 。 忆 之 ， 
本 书 不 是 一 本 理论 教程 ， 而 是 一 本 推动 算法 与 业务 实践 相 结 合 的 指 两 。 



















































































































































































写作 本 书 的 目的 








我 从 研究 生 阶 段 开 始 接 触 机 器 学 习 算法 , 在 硕士 研究 生 期 间 主要 从 事 算法 的 理论 研究 
和 代码 实现 ， 当 时 参与 了 一 些 开 源 算法 库 的 开发 和 算法 大 赛 ， 那 时 对 机 需 学 习 的 理解 更 多 
的 是 停留 在 数学 公式 推导 层面 。 那 时 候 理 解 的 机 需 学 习 就 是 一 门 统计 科学 ， 需 要 把 公式 研 
究 透 彻 。 直 到 入 职 阿里 云 ， 从 事 了 机 妖 学 习 平 台 相 关 的 工作 ,我 对 机 器 学 习 的 看 法 发 生 了 
很 大 改变 。 根 据 平日 里 与 客户 的 沟通 ， 我 认识 到 ， 对 绝 大 部 分 中 小 企业 用 户 而 言 ， 机 器 学 
习 算 法 只 是 帮助 大 家 提升 业务 成 效 的 工具 , 很 多 用 户 对 机 融 学 习 的 理解 还 处 于 比较 初级 的 
阶段 ， 与 这 种 现状 相 了 矛盾 的 是 目前 市 面 上 部 分 机 融 学 习 相 关 的 图 书 都 更 但 向 于 理论 癸 究 ， 
而 比较 缺乏 实际 应 用 的 场景 。 

写 这 本 书 的 目的 就 是 硕 户 可 以 提供 这 样 一 本 素材 ,能 够 让 徇 理 了 解 机 囊 学 习 的 人 快速 
了 解 整个 数据 挖掘 体系 的 轮廓 ,可 以 用 最 小 的 成 本 帮助 用 户 把 算法 迁移 到 机 带 学 习 云 服务 
上 去 。 至 于 算法 的 精密 度 和 次 度 的 探索 ， 那 是 数学 家 需要 考虑 的 事情 ， 对 绝 大 部 分 的 机 噩 
学 习 算法 用 户 而 言 , 这 样 一 本 能 帮助 大 家 快速 理解 算法 并 能 够 将 其 在 业务 上 实践 的 教程 可 
能 会 更 加 有 效 。 

对 我 而 言 ， 本 书 也 是 我 对 自己 学 习 成 果 的 总 结 。 从 2013 年 起 ， 我 陆 陆 续 续 在 CSDN、 
GitHub 和 云 栖 社区 上 分 享 过 一 些 上 自己 在 IT 领域 的 学 习 笔记 和 代码 ， 收 到 了 很 多 朋友 的 反 
Wi, 也 有 一 些 出 版 社 的 朋友 找到 我 希望 可 以 把 这 些 内 容 整 理 成 书 , 但 是 一 直 没 有 特别 笃定 
的 想法 一 一 什么 样 的 书 是 有 价值 的 。 通 过 近 一 年 来 的 机 器 学 习 平台 产品 建设 以 及 与 客户 的 
不 断 接触 ,我 心中 的 想法 逐渐 清晰 ， 很 多 机 器 学 习 爱 好 者 最 关心 的 是 如 何 使 用 算法 而 不 是 
这 些 算法 背后 的 推理 ， 于 是 本 书 就 应 运 而 生 了 。 虽 然 我 才 朴 学 线 ， 书 中 内 容 未 免 有 描述 不 
足 之 处 ， 但 是 我 真心 希望 这 本 书 可 以 在 读者 探索 机 融 学 习 的 道路 上 为 其 提供 助力 。 
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ABE TAM F: 
。 有 有 一 定数 学 基础 ， 和 希望 了 解 机 豆 学 习 算 法 的 人 ; 














。 AIMER, AEA CRNAs IRAN AN 2536 5 Lem 
。 数据 仓库 工程 师 ; 

。 STADT EE; 

。 可 求 数据 驱动 业务 的 企业 决策 者 。 











如 何 阅 读本 书 

















本 书 的 结构 是 按照 读者 对 机 器 学 习 的 认 知 过 程 和 数据 挖掘 的 算法 流程 来 组 织 的 , 一 共 
分 为 5 个 部 分 ， 共 9 章 内 容 。 

第 1 部 分 是 机 需 学 习 的 背景 知识 介绍 ,包括 第 1 音 。 这 一 部 分 主要 介绍 机 器 学 习 的 发 
展 历史 以 及 现状 ， 男 外 ， 也 介绍 了 机 器 学 习 的 一 些 基本 概念 ， 为 接 下 来 的 内 容 做 准备 。 

第 2 部 分 介绍 机 璐 学习 的 算法 流程 ， 包 括 第 2~6 蔓 ， 分 别 介绍 了 场景 解析 、 数 据 预 
处 理 、 特 征 工程 、 机 器 学 习 常 规 算法 和 深度 学 习 算 法 。 在 第 5 章 的 算法 部 分 ， 对 常见 的 分 
类 算法 、 聚 类 算法 、 回 归 算 法 、 文 本 分 析 算法 、 推 荐 算法 和 关系 图 算法 都 进行 了 介绍 ， 从 
这 一 章 可 以 了 解 到 不 同业 务 场景 下 不 同 算法 的 区 别 和 用 法 。 第 6 章 对 深度 学 习 相 关内 容 进 
行 了 讲解 ， 包 括 常 用 的 3 种 模型 DNN、CNN 和 RNN 的 介绍 。 

第 3 部 分 介绍 机 器 学 习 的 相关 工具 ， 包 括 第 7 章 的 内 容 。 这 里 的 工具 是 一 个 广泛 的 概 
念 ， 包 括 了 SPSS 和 及 语言 这 样 的 单机 统计 分 析 环 境 ， 也 包括 了 分 布 式 的 算法 框架 
Spark MLib 和 TensorFlow， 还 有 企业 级 的 云 算 法 服务 AWS ML 和 阿里 云 PAI。 通 过 阅读 这 
一 草 ， 读 者 可 以 根据 自身 的 业务 特点 ， 选 择 适 合 上 自己 的 算法 工具 。 

第 4 部 分 介绍 机 器 学 习 算 法 的 实 牙 案例 ， 包 括 第 8 音 ， 帮 助 读 者 理解 整个 数据 挖掘 流 
程 。 这 一 章 针 对 不 同行 业 和 不 同 场景 搭建 了 实验 ,分 别 介 绍 了 如 何 通 过 机 器 学 习 算法 应 对 
心脏 病 预 测 、 商 品 推荐 、 金 融 风 控 、 新 闻 分 类 、 贷 球 预 测 、 筋 考 天 气 预 报 和 图 刻 识 别 等 业 
务 场景 ， 因 此 也 是 本 书 的 核心 章节。 

第 5 部 分 主要 针对 知识 图 谱 这 个 热点 话题 进行 介绍 ， 包 括 第 9 Et, 知识 图 谱 的 介绍 主 
要 是 从 图 谱 的 概念 以 及 实现 的 角度 来 说 明 。 

尽管 读者 可 以 根据 自己 的 侧重 点 来 选择 阅读 顺序 ， 但 我 强烈 建议 读者 按照 顺序 来 阅 
读 ， 这 样 对 理解 书 中 的 概念 并 能 够 循序 淘 进 地 掌握 相关 知识 更 有 帮助 。 





























































































































勘误 和 服务 














虽然 化 了 很 多 时 间 去 反复 检查 和 核实 书 中 的 文字 、 图 乒 和 代码 ， 但 是 因为 认 知 能 
有 限 ， 书 中 难免 会 有 一 些 丝 漏 ， 如 果 大 家 发 现 书 中 的 不 足 之 处 ， 妓 请 反馈 给 我 ， 我 一 定 
会 努力 修正 问题 ， 我 的 个 人 邮箱 是 garvin.libo@gmailcom。 如 果 大 家 在 阅读 本 书 的 时 候 遇 
到 什么 问题 ， 也 欢迎 通过 各 种 方式 与 我 取得 联系 ， 个 人 网 站 为 www.garvinli.com, 555 
人 的 博客 地 址 是 http://blog.csdn.net/buptgshengod。 读 者 也 可 以 到 异步 社区 的 页 面 内 提交 
HR, AIHEEN http://www.epubit.com.cn/book/detail/4757。 因 为 工作 繁 性 ， 可 能 来 不 及 一 
一 回复 ， 但 是 我 会 尽力 与 读者 保持 沟通 ， 谢 谢 大 家 的 文 持 。 
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FEAT, 笔者 会 以 对 于 人 工 稼 能 发 展 历史 的 回顾 作为 开 遍 ， 进 而 介绍 一 些 人 工 管 
的 发 展现 状 ， 还 会 引出 对 于 机 页 学 习 的 基本 概念 的 一 些 讲 解 。 这 一 章 作 为 全 书 的 开 裔 ， 
翌 给 各 位 读者 一 个 宏观 的 概念 一 什么 定 机 豆 学 习 ? 和 它 会 给 我 们 的 生活 市 来 哪些 改变 ? 
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正如 爱 因 斯 坦 所 说 :“ 从 希腊 哲学 到 现代 物理 学 的 整个 科学 史 中 ， 不断 有 人 试图 把 表 
面 上 极为 复杂 的 目 然 现 家 归结 为 几 个 简单 的 基本 概念 和 关系 ,这 融 定 整个 目 然 哲学 的 基本 
原理 。 人 类 进化 的 发 展 网 ， 从 东 种 意义 上 米 讲 融 是 不 断 归 纳 经 验 进 而 误 绎 的 过 程 。 从 刀 
耕 火 种 的 新 石 带 时 代 到 近代 的 工业 革命 以 及 现代 科技 的 发 展 ， 人 类 已 经 积 素 了 大 量 的 经 
验 。 这些 经 验 既 是 “种 扒 得 内 ,种 豆 得 恕 ”这样 的 剃 识 ,也 是 例如 相对 论 这 样 的 定理 公式 。 
人 类 文明 正治 着 时 间 这 条 坐标 轴 不 断 前 进 ,， 如何 利 用 过 往 的 经 验 来 推动 人 类 社会 的 用 一 次 
飞跃 ， 信 工 智能 或 许 是 我 们 需要 的 答案。 


人 工 知 能 的 起 源 应 该 可 以 追 济 到 17 世纪 甚至 更 早 ， 当 时 人 人 们 对 于 人 工党 能 的 定义 是 基 
于 推理 的 。 和 信 们 畅想 看 如 末 两 个 哲学 家 或 者 历史 学 家 的 观点 出 现 予 盾 , 两 个 人 不 必 冉 进行 无 
休止 的 争吵 , 世界 上 的 所 有 理论 会 抽 角 成 类 似 于 数学 符号 的 语言 ， 人们 只 需要 拿 出 笔 米 寺 算 
PLA VW ERA Ep, DAMLE S A S], 如今 ,机 可 学 习 在 行业 上 的 应 用 也 是 将 业务 
逻辑 抽 角 成 数字 来 进行 计算 ， 从 而 解决 业务 问题 。 但 是 在 远古 时 代 ， 这 坚 逻 辑 还 只 是 科学 家 
脑 中 的 想法 。 实 际 上 ， 直 到 有 机 带 的 出 现 ， 人 工 智 能 才 真正 作为 一 门 学 科 而 受到 广 记 天 注 。 


谈 到 近代 人 工 镶 能 的 起 源 就 不 得 不 捉 到 一 个 名 字 一 一 图 灵 〈 见 图 1-1). 


随 肴 第 二 次 世界 大 战 的 爆发 ， 越 来 越 多 的 机 械 开 始 蔡 代 于 工 ， 人 们 开始 幻想 什么 时 候 
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机 器 学 习 概 述 








机 器 能 代替 人 类 来 进行 思考 。 在 20 世纪 40 年 代 ， 关 于 人 工 智 能 的 讨论 开始 兴起 。 但 是 ， 
机 怖 做 到 什么 程度 才 算 人 工 智 能 ， 这 需要 一 个 标准 来 判定 。 图 灵 用 了 了 最 直 白 的 话语 摘 述 了 
ALAE, DOME zeit (DUBS 1-2 )。 
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1-1 阿兰 .图 灵 1-2 图 灵 测 试 

1950 年 ， 计 算 机 科学 和 密码 学 的 先驱 阿兰 。 麦 语 森 * 图 灵 发 表 了 一 访 名 为 《计算 机 帮 
与 兰 能 》 的 论文 ,文中 定义 了 人 工 知 能 测试 的 方法 ， 让 被 测试 人 和 一 个 声称 自己 有 人 类 簿 
力 的 机 需 在 一 起 做 一 个 实验 。 测 试 时 ， 测 试 人 与 被 测试 人 是 分 开 的 , 测试 人 只 有 通过 一 些 
TE (URES ) 向 被 测试 人 问 一 些 问 题 ， 随 便 是 什么 问题 都 可 以。 问 过 一 些 问 题 后 ， 如 果 
测试 人 能 够 正确 地 分 出 谁 是 人 、 谁 是 机 器 ， 那 机 器 就 没有 通过 图 灵 测 试 ， 如 果 测 试 人 没有 
分 出 谁 是 机 右 、 谁 是 人 ， 那 这 个 机 需 就 是 有 人 类 智能 的 。 


人 工 知 能 的 为 一 个 重要 标志 是 人 工 乔 能 这 一 学 科 的 诞生 ， 改 事 发 生 在 1956 FARS 
斯 会 议 。 会 议 上 捉 出 了 这 样 的 理论 :“ 学 习 或 者 智能 的 任何 其 他 特性 都 能 家 精确 地 描述 ， 
使 得 机 囊 可 以 对 其 进行 模拟 。 这 个 论调 很 像 机 带 学 习 算 法 在 今日 的 应 用 ， 我 们 下 要 棕 取 
可 以 表示 业务 的 特征 ， 然 后 通过 算法 来 训练 模型 ， 用 这 些 模型 对 于 未 知 结 东 的 预测 集 进 行 
预测 。 这 次 会 议 对 于 人 工党 能 在 器 广 陪 的 岛 域 发 展 起 到 了 推动 作用 。 在 之 后 的 20 FE, 
人 类 在 人 工 吞 能， 特别 是 相关 的 一 些 统计 学 算法 的 研究 上 取得 了 突破 进展 ， 比 较 有 代表 性 
的 如 神经 网 络 算法 ， 束 是 在 这 个 时 期 诞生 的 。 有 了 这 坚 智 能 算法 作文 返 ， 喝 多 的 真实 场景 
才 可 以 在 数学 层面 进行 模拟 ， 人 类 慢 慢 学 会 通过 数据 和 算法 的 结合 来 进行 预测 ， 从 而 实现 
革 种 程度 上 的 智能 化 应 用 。 

A LESER AR Re Fe tas SHEER px. 20 世纪 70 年 代 ， 随 看 理论 算法 的 未 
步 成 工 ， 人 工 知 能 的 发 展 过 到 了 计算 资源 上 的 瓶 贷 。 随 看 计算 复 淋 度 的 指数 性 增长 ，20 
世纪 70 年 代 的 大 型 机 右 无 法 负担 这 一 切 。 同 时 ， 当 时 的 互联 网 还 处 于 发 展 初 期 ， 在 数据 


































































































积 素 方面 也 才刚 刚 起 步 。 科 学 家 往往 没有 足够 的 数据 去 训练 模型 ， 以 图 像 印 刷 文 字 识 别 
( Optical Character Recognition, OCR) 为 例 。 如 果 想 针对 某 一 场景 训练 一 套 精 上 度 较 高 的 
OCR 模型 ， 需 要 干 万 级 的 数据 样本 ， 这 样 的 数据 无 论 从 数据 获取 、 存 储 和 计算 成 本 来 看 ， 
在 当时 都 是 不 可 能 实现 上 鸭 。 所 以 人 工 智能 在 之 后 很 长 的 一 段 时 间 内 都 受 限 于 计算 能 力 以 及 
数据 量 的 不 足 。 


EVRA Silt 20 年 的 谢 帝 时 期 ， 但 是 数据 科学 家 对 于 人 工 价 能 的 探索 从 未 保 止 过 。 
在 21 世纪 ， 随 看 互联 网 的 并 喷 陈 发 展 ， 越 来 越 多 的 图 像 和 文本 数据 被 分 享 到 网 页 上 ， 保 
留 在 互联 网 巨头 的 服务 带 中 ， 随 之 而 米 的 是 用 户 在 网 上 的 浏 贞 记录 和 购物 记录 的 收集 。 互 
联网 已 经 变 成 了 一 个 大 数据 仓库 ,许多 网 络 大 咖 们 纷纷 将 注意 力 投向 数据 欣 据 领域 ， 效 据 
库 成 为 了 一 座 座 金 矿 ,数据 科学 家 们 开始 用 一 行 行 公式 和 代 公 挖 据 数 据 有 后 的 价值 ， 越 来 
ANZ FBG SBR SE KEE RASA ZS SOE ASA EF} La ARE. SAS 
EXER Ze EAT ESLCLZEBH eon “Be EEA)”. BOAR A 
MERRER TH, Ae BSS RTE LIES, Pe E EE BB 
“BK” o PB 级 数据 的 积累 使 得 人 们 不 得 不 将 单机 计算 迁移 到 多 机 ， 并 行 计 算 理论 开始 得 
到 了 广汉 的 应 用 ， 这 融 俱 生 了 云 计 算 的 概念 。 云 计算 ， 束 是 分 布 式 计 算 ， 简 单 来 齐 就 是 将 
一 个 很 复杂 的 任务 进行 拆 解 ， 由 成 掉 上 于 的 机 带 各 目 执行 任务 的 一 个 小 模块 ， 然 后 将 结 
IL Bho 


VA Hadoop ZJ NGBNJT URS Fp SER AA Ee IJ AE De BS Y 43 UP LA NS 
持 。 随 看 Caffe 和 Tensorflow 等 高 效率 的 深度 学 习 涤 构 被 开 产 ， 许 多 小 型 企业 也 具备 了 目 
主人 研发 改进 算法 模型 的 能 力 。 人 工 智能 的 应 用 开始 普及 ， 并 且 隶 新 融入 我 们 的 生活 当中 。 
人 们 开始 习惯 了 在 Google 上 输入 一 个 词 条 马上 就 能 返回 上 干 万 条 信息 ， 通 过 刷 脸 或 者 指 
纹 识 别 来 进行 文 付 ， 在 淘宝 购物 时 获得 智能 商品 推荐 。 图 像 识别 、 文 本 识别 和 语音 识别 的 
发 展 给 我 们 的 生活 带 来 了 丰 履 式 的 影响 。2016 £, Google 关于 人 工 智 能 的 一 场 秀 将 人 工 短 
BE; "Nri 88]  —" rre 8E s 机 妖 智 能 战胜 人 类 围棋 选 于 一 直 以 来 被 认为 古 不 可 能 实现 的 任 
务 , 但 是 AlphaGo 成 功 地 实现 了 这 一 点 。AlphaGo 的 成 功 不 仪 仪 验证 了 深度 学 习 和 蒙特 卡 
洛 搜索 鼻 旋 的 实践 性 , 更 加 于 一 次 印证 了 这 样 的 事实 , 即 人 类 不 于 是 产生 智能 的 唯一 载体 。 
任何 机 器 ， 只 要 能 够 进行 信息 的 接收 、 存 储 和 分 析 ， 痢 是 可 以 产生 智能 的 。 而 这 里 面 的 天 
BA efe LH e EVA REIR c 





































































































































































































ATHENA, BEN Paes CHE AAT TEA EA BE ED t dH 
现 忆 前 ， 人 类 只 能 通过 别人 的 分 孚 和 目 己 的 实践 在 很 小 的 信息 量 级 上 来 对 事物 进行 判断 ， 
这 种 对 于 外 界 事物 的 认 知 受 限 于 人 的 脑力 和 知识 量 。 不 同 于 人 类 的 脑力 ， 抽 家 意 义 上 的 机 
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合 可 以 被 当成 一 个 信息 黑洞 , 吸收 所 有 的 信息 ， 而 且 可 以 不 分 入 人 夜 地 对 这 些 数据 进行 大 维 
有 的 分 析 、 归 纳 以 及 演绎 ， 如 琳 人 类 将 这 些 机 枯 学 习 后 得 到 的 认 知 进行 分 娃 ， 就 形成 了 人 
工 智能 。 于 是 ， 随 月 人 类 社会 的 发 展 ， 数 据 的 积 素 以 及 算法 的 迭代 将 进一步 推动 整个 人 工 
智能 的 发 展 。 


正如 前 面 所 提 到 的 ， 人 工 智 能 的 发 展 体现 在 机 带 市 动人 类 进行 经 验 归纳 以 及 思考 ， 那 
么 人 工 智 能 背后 的 引擎 焉 是 本 书 要 介绍 的 重点 一 机 带 学 习 算 法 。 机 带 学 习 是 一 种 多 学 科 
交织 的 研究 型 学 科 ， 涉及 生物 学 、 统 让 和 计算 机 等 多 个 学 科 。 机 璐 学 习 自 法 发 展 到 目前 阶 
段 ， 做 的 事情 主要 是 将 生活 中 的 场景 抽 圾 成 为 数学 公式 ， 并 且 依 年 机 页 的 超 强 计 算 能 力 ， 
通过 和夫 代 和 福 绎 生成 模型 ， 对 于 新 的 社会 问题 进行 预测 或 者 分 类 操作 。 人 工 稍 能 的 发 展 史 
其 实 伴随 肴 机 带 学 习 算 法 的 进化 史 , 正 征 随 肴 机 带 学 习 算 法 的 不 断 发展 以 及 计算 能 力 的 提 
Fr, 人工 智能 产业 才 得 到 了 发 展 ， 进 而 达到 了 目前 这 种 火热 的 局 面 。 下 面 将 对 于 机 天 学 习 
算法 在 目前 阶段 所 取得 的 一 至 成 就 进行 一 个 介绍 ， 方 便 大 家 了 解 机 带 学 习 算法 的 用 途 。 




































































1.2 REIA 














上 一 节 中 回顾 了 人 工 智能 的 发 展 历程 ， 不 考虑 计算 能 力 等 硬件 条 件 的 限制 ， 当 今世 界 
的 人 工 智能 可 以 总 结 为 数据 和 智能 算法 的 结合 。 通 过 对 过 往 经 验 的 分 析 得 到 实验 模型 , 并 
且 利 用 这 种 模型 指导 实际 的 业务 。 把 人 工 智能 看 作 一 个 人 类 大 脑 的 话 ， 里 面 的 血液 就 是 数 
所 ， 而 大 脑 里 面 的 血管 承 开 着 数据 的 流转 ， 可 以 看 作 是 相关 的 机 器 学 习 算法 。 所 以 在 介绍 
机 器 学 习 算法 之 前 ， 大 家 不 得 不 先 了 解 一 下 大 数据 时 代 的 特性 ， 然 后 再 针对 当前 数据 爆炸 
的 这 种 情况 介绍 机 器 学 习 算法 的 一 些 用 途 。 






































1.2.1 数据 现状 


21 世纪 注定 是 属于 互联 网 的 ， 在 这 个 数字 时 代 产 生 了 很 多 新 名 词 ， 这 里 边 有 云 赴 算 、 
电子 商务 和 有 共 孕 经 鹿 。 大 数据 也 是 互联 网 时 代 的 产物 , 出 现在 报纸 中 、 电 视 上 、 网 页 里 。 
“大 数据 ”已 经 成 为 信息 时 代 的 代名词 ， 旋 至 于 好 多 人 还 来 不 及 认识 它 ， 就 已 经 开始 被 它 
文 配 。 什 么 是 数据 ? 客观 世界 存在 的 那 一 刻 开 始 ， 数 据 束 已 经 由 现 了 ， 从 宇宙 中 天 体 运 动 
的 速度 、 角 度 及 天 体 的 质量 ， 到 人 类 文明 的 产生 、 更 迭 和 演进 。 数 据 无 处 不 在 ， 但 是 数据 
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的 价值 在 于 如 何 采 集 和 利用 。 


正 古 受到 互联 网 的 驱动 ， 人 类 开始 采集 和 利用 数据 。 对 于 大 数据 时 代 ， 我 最 深 切 的 感 
触 是 大 数据 未 来 的 版 图 清晰 又 模糊 。 清 晰 的 是 人 们 已 经 开始 意识 到 数据 是 有 价值 的 ,并 且 
己 经 开始 采集 数据 ， 看 看 人 们 都 做 了 什么 ? 根据 存储 市 场 调 研 的 最 新 报告 ， 目 前 世界 全 年 
的 数据 保存 量 约 合 50EB， 这 些 数 据 来 源 于 互联 网 、 医 疗 健 康 、 通 信 、 公 共 安 全 以 及 军工 
等 行业 。 接 下 来 ， 我 们 来 看 看 这 些 数 据 是 如 何 产 生 的 。 


以 全 球 最 大 的 SNS 服务 商 Facebook 为 例 。Facebook 现在 的 用 户 数 达到 9.5 亿 , 这 些 用 
户 的 每 一 个 行为 , 包括 每 一 次 通知 、 页 面 访问 、 查 看 朋友 的 页 面 ， 都 会 被 Facebook 的 服务 
器 追踪 ,并 且 产 生 历 史 行 为 数据 。 而 全 世界 9.5 亿 用 户 平均 每 个 月 在 Facebook 上 花费 的 时 
间 超 过 6.5 个 小 时 ， 产 生 的 数据 量 大 小 超出 人 们 的 想象 。Facebook 上 每 天 可 以 产生 500TB 
左右 的 数据 量 ， 我 们 来 看 看 这 些 数据 具体 包括 什么 。 人 们 每 天 分 享 25 亿 个 内 容 条 目 ， 包 
括 状 态 更 新 、 墙 上 的 帖子 、 图 片 、 视 频 和 评论 ,每 天 有 27 亿 个 “1like” 操 作 ， 人 们 每 天 上 
传 3 亿 张 图 片 。 


RAHUN Facebook, Google 和 Alibaba 这 样 的 国际 互联 网 巨头 已 经 开始 积 系 数据 ， 并 
日 将 数据 进行 分 析 来 有 反哺 业务 。 但 是 鹤 止 到 今天 ,全 世界 每 年 你 存 下 来 的 数据 只 占 到 数据 
产生 总 量 的 百 分 之 一 人 不 到， 其 中 可 以 被 标记 并 且 分 析 的 数据 更 是 连 百 分 之 十 都 不 到 。 这 种 
现状 造成 了 两 方面 的 诅 贷 , 一 方面 是 数据 产生 和 数据 收集 的 短 贷 ， 为 一 方面 是 采集 到 的 数 
据 和 和 能 被 分 析 的 数据 之 间 的 竹 贷 。 


针对 数据 产生 和 数据 采集 的 瓶 氏 ， 其 原因 一 方面 是 硬件 存储 成 本 的 限制 ， 但 是 随 销 便 
盘 技 术 的 上 友 展 和 产能 的 提升 ， 这 方面 的 缺陷 正 逐 渐 弱 化 。 笔 痢 认 为 ,造成 目前 数据 采 案 与 
数据 生成 失衡 的 主要 原因 是 数据 的 采集 缺乏 标准 。 里 然 ， 互 联网 公司 对 数据 采集 和 标准 制 
定 方面 已 经 形成 了 一 套 成 玖 的 体系 ， 如 网 站 的 点 击 行 为 、 日 志 的 收集 等 。 但 是 对 于 喝 多 行 
业 ， 特 别 是 传统 行业 来 说 ， 数 据 的 采 案 方式 还 处 于 摸索 当中 ， 而 且 从 目前 来 看 ， 这 样 的 措 
索 还 将 持续 相当 长 的 时 间 。 人 尽管 现在 提倡 互联 网 思维 以 及 世界 万 物 联网 的 思想 , 但 是 互联 
网 对 于 采集 数据 的 经 验 奴 怕 很 难 复制 到 传统 行业 。 因 为 互联 网 行业 对 于 数据 采集 存在 天 然 
的 优势 ,互联 网 的 数据 都 是 托管 在 数据 库 里 ， 以 二 进 制 的 方式 记录 在 硬盘 中 ， 只 要 稍 作 处 
理 就 可 以 形成 一 份 质量 较 融 的 结构 化 数据 。 但 古 在 传统 行业 ， 以 建筑 行业 为 例 ， 数 据 产生 
于 工地 上 一 售 一 加 的 堆砌 ,产生 于 工地 的 施工 建设 , 这样 的 数据 如 何 转 成 二 述 制 来 存储 需 
要 由 新 的 标准 米 指 定 ， 而 这 种 标准 更 多 地 受 限 于 技术 手段 。 如 末 我 们 的 图 像 识别 做 得 足够 
智能 ， 扯 一 张 照 户 残 可 以 将 工地 的 数据 量化 ， 这 样 可 能 就 可 以 解决 这 种 问题 。 对 于 传统 行 
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业 的 数据 智能 化 进程 可 能 还 需要 奎 心 的 等 每 。 


数据 采集 方面 还 需要 制定 更 多 的 标准 以 及 技术 的 支持 , 但 是 数据 的 应 用 方面 也 存在 不 
小 的 喘 陷 。 如 来 目前 世界 上 采集 到 的 数据 能 被 充分 利用 是 足够 题 窗 生 活 的 ， 可 惜 的 古 目 前 
可 以 供 分 析 的 数据 还 只 占 很 小 的 比例 。 造 成 这 样 的 困境 主要 有 两 方面 因 系 ， 一 个 是 目前 比 
较 主 闹 的 机 带 学 习 算法 都 是 监督 学 习 算法 , 监 千 学 习 需要 的 数据 源 是 打 标 过 的 数据 ， 打 标 
效 据 很 多 时 候 是 依赖 于 人 工 标记 。 比 如 我 们 需要 一 份 数据 米 训 练 模 型 进行 电影 推荐 , 除了 
己 知 的 电影 的 特征 数据 以 外 ， 还 需要 一 份 打 标的 数据 米 表 示 电 影 的 好 看 程度 ， 有 点 像 豆 汶 
的 电影 分 数 ， 这 种 数据 很 难 通过 计算 机 的 计算 直接 生成 ， 需要 依赖 于 人 工 打 标 。 和 人工 打 标 
的 影响 就 是 ， 一 方面 很 难 生成 大 量 的 标本 (上 干 万 样本 的 数据 )， 设想 一 下 1000 75 AA 
一 个 地 方 一 起 看 一 部 电影 再 进行 评分 古 多 么 浩大 的 一 项 工程 。 为 一 方面 ， 人 工 打 标的 成 本 
太 疝 ， 目 前 有 很 多 负 贡 打 标 的 第 三 方 公 司 ， 打 标 服务 往往 在 市 场 上 可 以 卖 到 很 忆 的 价格 。 


万 一 个 导 竹 可 分 析 数 据 比 例 较 低 的 因 对 是 对 于 非 结构 化 的 数据 处 理 能 力 较 低 。 非 结构 
化 数据 指 的 是 文本 或 者 图 厂 、 语 首 、 视 频 这 样 的 数据 。 这 邵 分 数据 来 目 于 用 户 在 贴吧 的 评 
论 、 社 交 软 件 上 的 关 人 做 、 直 播 六 台 上 的 视频 展现 等 。 里 然 日 前 的 科技 术 平 已 经 具备 了 文本 
和 图 像 方面 的 分 析 能 力 ， 但 是 在 大 批量 处 理 和 特征 提取 方面 依然 处 于 相对 基础 的 阶段 。 以 
图 像 识 别 为 例 ， 目 前 比较 成 玖 的 包括 人 脸 识 别 和 指纹 识别 等 ,图像 识别 的 特点 是 每 种 事物 
的 识别 需要 训练 相对 应 的 模型 ， 而 这 种 模型 需要 大 量 的 训练 杆 本 来 所 高 精确 率 ， 一 个 成 贡 
的 模型 通 首 需要 干 万 级 别 的 训练 样 例 。 人 脸 的 数据 是 比较 容易 获取 的 , 所 以 相应 的 模型 比 
REDI, 但 是 假如 我 们 需要 训练 一 个 模型 来 识别 菜 一 蒜 杯 子 ， 针 对 这 一 丈 杯 子 的 训练 
数据 是 很 难 达 到 理想 量 级 的 ， 这 也 提高 了 特定 场景 下 图 侯 识别 的 门槛 。 


互联 网 在 不 断 发展 ， 数据 的 生成 也 不 会 堡 下 脚步 。 目 前 被 三 沁 引 用 的 互联 网 数据 中 心 
(International Data Corporation, IDC) 和 EMC 联合 发 布 的 “2020 年 的 数字 宇宙 ”报告 显 
示 ， 到 2020 年 全 球 数字 宇宙 将 会 膨胀 到 40000EB， 均 摊 每 个 人 身上 是 5200GB 以 上 ， 这 个 
数据 量 的 数据 将 会 如 何 被 有 效 存储 和 应 用 ， 目 前 我 们 还 不 敢 想 象 。 不 过 可 以 肯定 的 是 ， 数 
据 会 成 为 重要 的 资源 ， 就 像 是 水 电 煤 一 样 ， 在 大 数据 时 代 ， 特 别 是 未 来 的 数据 爆发 时 代 ， 
数据 一 定 会 展现 出 更 大 的 奖 能 ， 人 类 社会 也 会 进入 数据 处 理 技术 (Data Technology, DT ) 
时 代 。 









































































































































































































































1.2.2. ”机 需 学 习 算法 现状 
之 前 讲 了 大 数据 ,这 里 册 讲 机 而 学 习 央 变 得 容易 理解 了 。 传 统 的 机 融 工 作 模 却 征程 序 
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员 癌 机 融 输 入 一 连 绅 的 指令 ， 可 以 理解 为 是 代 但 ， 然 后 机 带 按 有 照 这 些 指 令 一 步 一 步 执行 下 
去 ， 结 末 通 前 是 我 们 可 以 事 移 预料 的 。 这 种 巡 辑 在 机 豆 学 习 里 是 走 不 通 的， 机 硕 学 习 是 指 
我 们 加 机 融 〈 更 准 硝 地 说 是 机 融 学 习 算 法 ) 中 输入 数据 ， 然 后 机 俐 会 根据 数据 返回 结 来 ， 
这 些 结 采 征 通过 数据 目 我 学 习 得 到 的 , 学 习 的 过 程 通 过 算法 来 完成 。 我 们 可 以 这 样 来 定义 ， 
机 融 学 习 方法 是 计算 机 利用 已 有 的 数据 (经 验 ) 得 出 了 某 种 模型 ， 并 利用 这 些 模型 预测 未 
来 的 一 种 万 法 。 这 个 过 程 其 实 与 人 的 学 习 过 程 极 为 相似 ， 只 不 过 机 融和 是 一 个 可 以 进行 大 维 
度数 据 分 析 而 且 可 以 不 知 疫 倦 地 学 习 的 “ 怪 轩 ”而 已 〈《 见 图 1-3 )。 
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1-3 ”机 器 学 习 与 人 的 不 同 





Hla SERS AA. Sted. SOS. TRA. TESA A BAT S eE 
等 领域 部 有 看 很 深 的 联系 。 如 今生 活 在 这 杆 的 DT INTC, BOT Ree Lr ae, 
通过 机 融 对 大 数据 进行 分 析 而 市 来 的 人 工 智能 应 用 , 正在 一 点 一 点 地 改变 人 们 的 生活 方式 
和 思维 方式 。 看 到 这 里 很 多 人 都 会 发问 : 机 带 学 习 完 葛 能 做 什么 ”其 实 机 天 学 习 已 经 服务 
了 我 们 生活 的 各 个 方面 , 下 面 以 一 个 和 单 的 购物 场景 米 介 绍 机 带 学 习 是 如 何 应 用 在 我 们 的 
日 名 生活 中 的 。 


现在 是 2016 年 ， 如 采 你 还 没有 和 尝试 过 网 上 购物 ， 那 真 的 是 洛 伍 了 。 网 上 购物 目前 已 
经 成 了 人 们 的 生活 方式 。 下 面 束 简 早 地 聊 聊 机 格 学 习 算法 在 购物 行为 中 的 应 用 。 假设 我 们 
在 餐厅 吃饭 ， 看 到 一 个 人 的 短 袖 体恤 很 深 腕 ， 我 们 想 关 同 蒜 ， 但 是 义 不 好 意思 开口 去 问 。 
那么 我 们 可 以 先 偷 担 一 张 这 个 人 的 了 性 的 照 厂 ， 然 后 扣 立 淘 ( 风 图 1-4) 束 会 显示 出 这 件 
衣服 的 同 球 。 















































R 1-4 拍 立 淘 











这 里 就 用 到 了 机 带 学 习 中 的 图 像 识别 技术 。 但 是 往往 与 这 件 衣 服 相近 的 天 了 式 义 非 汪 
的 多 ， 因 此 我 们 需要 把 这 些 蒜 式 按照 一 定 的 规则 进行 排 夺 ， 这 就 涉及 了 机 亲 学 习 算 法 模 
型 的 训练 ， 通 过 这 个 模型 ,我 们 把 所 有 的 类 似 球 式 进行 一 个 排名 ， 最 后 就 得 出 了 最 终 的 
展示 顺序 。 


当然 ， 更 多 的 时 候 我 们 十 通过 键盘 的 输入 来 搜索 商品 的 ， 但 是 如 来 犯 懒 ， 还 可 以 选择 
通过 语音 的 方式 输入 内 容 ， 这 就 是 语音 转 文 本 的 运用 。 在 我 们 搜索 一 款 产品 之 后 ， 网 页 的 
边栏 上 会 出 现 一 些 推荐 罗 表 ， 而 且 每 个 用 户 的 推 存 记 表 都 是 不 同 的 ， 这 融 是 所 谓 的 干 人 干 
面 。 这 个 场景 的 实现 依赖 的 是 推荐 系统 后 台 的 用 户 画 像 ， 而 用 户 画 像 束 是 大 数据 和 机 豆 学 
习 算 法 的 典型 应 用 ， 通 过 挖掘 用 户 的 特征 ， 如 性 列 、 年 龄 、 收 入 情况 和 爱好 等 特征 ， 推 荐 
用 户 可 能 购买 的 商品 ， 做 到 个 性 化 推 存 。 


到 了 这 一 步 ， 我 们 终于 把 商品 放 到 了 购物 千里， 开始 下 单 。 下 单 之 前 我 们 发 现 网 银 账 
户 中 的 钱 不 够 用 了 ， 想 申请 一 些 贫 蒜 。 这 个 时 候 ， 我 们 发 现 有 一 个 贷 于 额度 ， 这 个 额度 是 
如 何 计 算 的 呢 ? 这 里 面 阔 及 金融 风 控 的 问题 ， 而 金融 风 控 也 是 根据 机 融 学 习 的 算法 来 训练 
模型 并 且 计 算出 来 的 。 


下 单 之 后 我 们 的 商品 就 被 安排 配送 了 ， 目 前 除了 少数 边远 地 区 ， 基 本 上 5 天 之 内 就 可 
以 收 到 商品 。 这 段 时 间 包含 了 商品 的 包装 、 从 库存 发 货 到 中 转 库存 、 从 低级 仓库 到 高 级 仓 
库 配送 、 向 下 分 发 。 这 么 多 工序 之 所 以 能 够 在 短 时 间 内 完成 ， 是 因为 仓储 在 库存 方面 已 经 
是 前 做 了 需求 量 预测 ， 提 前 在 可 能 的 需求 地 附近 备货 ， 这 套 预测 算法 也 是 建立 在 机 器 学 习 














































































































1.2. 发 展现 状 





算法 基础 之 上 的 。 


我 们 的 快递 员 拿 到 货物 ， 打 开 地 图 导航 ， 系 统 已 经 为 他 设计 了 配送 的 路 径 ， 这 个 路 径 
导 免 了 拥堵 而 且 尽 量 把 路 线 说 直到 最 短 距 离 ， 这 也 起 通过 机 融 学 习 自 法 来 计算 的 。 快 递 员 
走 进门 ,我们 拿 到 货物 后 ， 发 现 衣服 的 矿 但 不 合适 怎么 办? 打开 各 服 ， 输 入 问题 ， 然 后 我 
们 发 现 可 以 瞬间 得 到 回复 ， 因 为 这 名 客服 人 员 可 能 并 不 是 真 的 “客服 人 员 ”， 只 是 一 个 客 
服 机 带 人 而 已 。 智 能 各 服 系统 利用 文本 的 语意 分 析 复 法 ， 可 以 精 仅 地 确定 用 户 的 问题 ， 并 
且 给 也 相应 问题 的 解答 。 同 时 ， 乔 能 客服 还 可 以 对 用 户 问 题 的 语 境 进行 分 析 ， 如 来 问 题 很 
严重 需要 赔偿 ， 如 :“ 你 的 产品 害 我 未 肚子 了 ”这 样 的 问题 会 由 各 服 机 右 和 通过 情感 分 析 
挑 出 来 ， 交 给 专人 处 理 。 

如 上 所 述 ， 笔者 简 蛙 列举 了 机 桥 学 习 在 网 上 购物 中 的 几 大 应 用 ,这 里 面 涉 及 了 很 多 吞 
能 算法 ， 包 丘 模 型 的 训练 和 预 届 、 语 义 分 析 、 文 本 情感 分 析 、 图 像 识别 技术 以 及 语音 识别 
技术。 我 们 可 以 看 到 ， 在 网 购 这 种 最 剃 见 的 场景 下 ， 机 如 学 习 算法 儿 乎 吐 容 了 全 部 流程 。 

当然 ,我 们 还 可 以 列举 出 非 冰 多 诸如 上 述 例 了 于 ， 因 为 场景 实在 太 多 了 ,没有 办 法 全 音 
穷 举 出 来 ， 这 里 通过 场景 来 切 分 把 机 带 学 习 的 一 些 高 频 场景 列举 如 下 。 










































































e 聚 类 场景 : 人 群 划分 和 产品 种 类 划分 等 。 

e 分 类 场景 : 广告 投放 预测 和 网 站 用 户 点 击 了 预测 等 。 

e 回归 场景 : BERN SETI. aS ee MASS A AME: o 

。 文本 分 析 场 景 : 新 闻 的 标 等 提取 、 文 本 目 动 分 类 和 文本 关键 信息 抽取 等 。 


e 关系 图 算法 : 社交 网 络 关 系 (Social Network Site, SNS ) 网 络 关 系 挖 据 和 金融 风险 


控制 等 。 


e 模式 识别 : 语音 识别 、 图 像 识别 和 手写 字 识别 等 。 



































上 上面 列举 的 应 用 只 是 机 需 学 习 算 法 应 用 场景 中 的 一 小 部 分 , 其 实 随 着 数据 的 积累 , DURS 
学 习 算 法 是 可 以 渗透 到 各 行 各 业 当 中 , 并 且 在 行业 中 发 生 巨 大 的 作用 。 随 着 数据 智能 、 数 据 
驱动 等 思想 的 传播 , 机 囊 学 习 算法 正在 成 为 一 种 普 世 的 基础 能 力 癌 外 输出 。 我 们 可 以 预见 未 
来 随 着 算法 和 计算 能 力 的 发 展 ， 机 器 学 习 应 该 会 在 金融 、 医 疗 、 教 育 、 安 全 等 各 个 领域 有 更 
深层 次 的 应 用 。 笔 者 特别 期 待机 器 学 习 算 法 在 破解 基因 密码 以 及 交 症 攻破 方面 可 以 取得 突 
酸 ， 同 时 无 人 和 车、 增强 现实 (Augmented Reality, AR ) 等 新 概念 、 新 技术 的 发 展 也 需要 依赖 
于 机 需 学 习 算 法 的 发 展 。 相 信 未 来 ， 机 瑚 学 习 算 法 会 真正 做 到 题 畴 生活 改变 人 类 命运 。 
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1.3 ”机 器 学 习 基 本 概念 


在 开始 机 融 学 习 的 算法 流程 介绍 之 前 ， 因 为 机 融 学 习 是 一 个 多 学 科 交 叉 的 学 科 ， 有 很 
多 类 似 于 统计 学 的 概念 ,但 是 在 叫 法 上 与 传统 的 统计 学 又 有 一 定 的 区 别 ， 我 们 需要 了 解 一 
坚 机 带 学 习 相 关 的 基本 概念 ， 因 为 如 末 不 明确 这 坚 概 念 的 话 ， 对 于 一 坚 文献 的 阅读 和 理解 
会 构成 障碍 。 下 面 通过 这 一 下 的 介绍 帮助 大 家 对 于 基础 的 机 融 学 习 名 词 和 概念 进行 了 解 ， 
正和 完 介 绍 一 下 机 合 学 习 的 基本 流程 ,然后 针对 机 侣 学 习 水 及 的 数据 、 算 法 和 评估 这 3 个 方 
面 用 到 的 基础 概念 进行 介绍 。 

















1.3.1 pla LE 


JB Use 2J HE — pe. TTA BARE, TERE EHP Re 
和 人 化 了 很 多 时 间 在 算法 的 选择 或 者 调 优 上 ， 但 其 实 机 融 学 习 的 每 一 个 步骤 都 是 至 关 重 要 
的 ,介绍 算法 的 具体 实现 的 资料 已 经 比较 丰 语 了 ,笔者 布 望 化 更 多 的 遍 幅 来 介绍 数据 的 处 
理 和 整个 机 侣 学 习 流 程 的 串联 。 


机 奇 学 习 的 整个 流程 大 化 可 以 分 为 6 个 步 骆 ， 整个 流程 按照 数据 流 目 上 和 而 下 的 顺序 排 
列 ， 分 别 是 场景 解析 、 数 据 预 处 理 、 特 征 工程 、 模 型 训练 、 模 型 评估 、 离 线 /在 线 服务 ( 见 
图 1-5 )， 下 面 来 逐一 介绍 下 这 些 步 又 的 基本 功能 。 

典型 模型 算法 开发 流程 
- 























离线/ 在线 服 务 


图 1-5 数据 挖掘 流程 


1.3 ”机 器 学 习 基 本 概念 


(1) 场景 解析 。 场 景 解析 项 是 匈 把 整个 业务 逻辑 想 请 竹 ， 把 目 己 的 业务 场景 进行 一 个 
抽 家 ， 例 如 我 们 做 一 个 广告 点 击 预 出 ， 其 实 是 判断 一 个 用 户 看 到 广告 是 点 击 还 是 不 点 击 ， 
这 束 相 以 抽 角 成 二 分 类 问题 。 然 后 我 们 根据 是 不 古 监督 学 习 以 及 二 分 类 场景 ， 束 可以 进行 
算法 的 选择 。 总 的 来 说 ,场景 抽 家 束 是 把 业务 远 辑 和 算法 进行 下 配 。 


(2) 数据 预 处 理 。 数 据 了 预 处 理 主要 进行 数据 的 浓 尝 工作 ， 旬 对 效 据 矩阵 中 的 空 值 和 乱 
但 进行 处 理 ， 同 时 也 可 以 对 整体 数据 进行 拆 分 和 采样 等 操作 ,也 可 以 对 单字 段 或 者 多 字段 
进行 归 一 化 或 者 标准 化 的 处 理 。 数 据 预 处 理 阶 段 的 主要 目标 束 是 减少 量 纲 和 噪 普 数据 对 于 
训练 数据 集 的 影响 。 


(3) 特征 工程 。 特 征 工 程 是 机 融 学 习 中 最 重要 的 一 个 步 又 ， 这 句 话 一 点 都 设 有 错 。 
特别 是 目前 随 销 开源 算法 库 的 普及 以 及 算法 的 不 断 成 用 ， 算 法 质量 并 不 一 定 是 决定 结 朱 
的 最 关键 因 系 ， 特 征 工 程 的 效果 从 菏 种 意义 上 决定 了 最 终 模 型 的 优 务 。 通 过 一 个 例子 诉 
明 一 下 特征 工程 的 作用 ，2014 年 菏 互 联网 巨头 举办 了 一 场 大 数据 苋 完 ， 参 和 园 队 伍 
在 1000 个 以 上 , 到 最 后 ,， 这 里 面 儿 乎 所 有 的 参赞 队 伍 部 用 了 相同 的 一 合算 法 ,因为 算法 
的 优 务 古 比 较 容 易 评 判 的 ， 不 同 算法 的 特性 古人 不 一 样 的 ， 和 而 且 可 供 选 择 的 算法 种 类 是 有 
限 的 。 但 是 特征 的 选取 和 人 衍生 却 有 极 大 的 不 定性 ，100 个 人 眼中 可 能 有 100 种 不 同 的 特 
征 ， 所 以 这 种 大 均 到 了 后 期 ， 往 往 大 家 比拼 的 焉 是 特征 选取 的 好 坏 。 在 算法 相对 固定 的 
情 姓 下 ， 可 以 说 好 特征 决定 了 好 结 朱 。 


(4) 模型 训练 。 如 图 1-6 所 示 的 “逻辑 回归 二 分 类 ”组 件 表示 的 是 算法 训练 过 程 ， 训 
练 数 据 经 过 了 数据 预 处 理 和 特征 工程 之 后 进入 算法 训练 模块 ， 并 且 生 成 模型 。 在 “预测 ” 
组 件 中 ， 读 取 模 型 和 预测 集 数 据 进行 才 算 ， 生 成 预测 结 末 。 


(5) 模型 评估 。 机 豆 学 习 算法 的 计算 结 末 一 般 是 一 个 模型 ， 模 型 的 质量 直接 影响 接 下 
RAN SEL SS o RRA VEER PH, ECS TEE i SETH o 


(6) 离线 /在 线 服务 。 在 实际 的 业务 运用 过 程 中 , D User Ja a s A EAR OR ME 
Hi. FABER P: 每 天 用 户 将 当日 的 增 量 数据 流 入 数据 库 表 里 ， 通 过 调度 系统 局 
动机 融 学 习 的 离线 训练 服务 ， 生 成 最 新 的 离线 模型 ， 然 后 通过 在 线 预 调 服 务 〈 通 第 通过 
Restful API， 发 送 数据 到 服务 带 的 算法 模型 进行 填 算 ， 人 然后 返回 结 末 ) 进行 实时 的 预测 。 
具体 淋 构 如 图 1-7 所 示 。 


利用 这 种 淋 构 就 实现 了 离线 训练 和 在 线 预测 的 结合 , 串联 了 从 离线 人 到 在 线 的 整个 业务 
X HE 
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(9 siam 22 ©) 





Fa ©) 
\ 在 线 预测 API 
图 1-6 模型 训练 图 1-7 机 器 学 习 服 务 架 构 


1.3.2 ”数据 源 结构 


前 而 已 经 介绍 了 机 楷 学 习 的 基本 流程 ， 下 面 将 针对 机 侨 学 习 的 数据 结构 进行 介绍 。 如 
末 把 机 格 学 习 算法 比 作 一 个 数据 加 工场 , 那么 进入 工厂 的 数据 就 古 被 算法 用 来 加 工 的 原 材 
料 ， 机 融 学 习 自 法 需要 的 数据 是 什么 样 结构 的 呢 ? 如 采 经 前 关注 大 数据 相关 的 文章 ， 基 本 
会 听 说 过 “结构 化 数据 ”和 “ 非 结 构 化 数据 ”这 两 个 词 ， 当 然 这 里 面 还 能 人 往生 出“ 半 结构 
化 数据 ”"， 下 面 分 别 介绍 一 下 这 儿 种 数据 的 结构 。 


C1) 结构 化 数据 。 结 构 化 数据 是 指 我 们 在 日 名 数据 库 处 理 中 经 名 看 到 的 日 志 类 数据 结 
构 ， 是 以 矩阵 结构 存储 在 数据 库 中 的 数据 ， 可 以 通过 二 维 表 结 构 来 显示 ， 如 图 1-8 所 未 。 


















































age a SEX a CD a. trestbps a chol a fbs a restecg a 
63.0 1 0 145.0 233.0 1 2 
67.0 1 2 160.0 286.0 0 2 
67.0 1 2 120.0 229.0 0 2 
37.0 1 1 130.0 250.0 0 0 
41.0 0 2 130.0 204.0 0 2 
56.0 1 2 120.0 236.0 0 0 
62.0 0 2 140.0 268.0 0 2 
57.0 0 2 120.0 354.0 0 0 
63.0 1 2 130.0 254.0 0 2 
53.0 1 2 140.0 203.0 1 2 


1-8 结构 化 数据 示例 








结构 化 数据 主要 由 两 个 部 分 组 成 ,一 个 部 分 是 每 个 字段 的 含义 ,也 就 是 图 1-8 中 的 age. 
sex, cp 等 字段 头 ， 另 一 个 部 分 是 每 个 字段 的 具体 数值 。 通 常 来 讲 ， 机 器 学 习 算法 处 理 的 
数据 都 是 结构 化 的 数据 ， 因 为 机 器 学 习 需 要 把 数据 带 入 矩阵 去 做 一 些 数学 运算 ,结构 化 数 
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据 原 生 是 以 息 阵 形态 存储 的 ， 所 以 机 豆 学 习 算 法 通 攻 是 只 文 持 结 构 化 数据 的 。 


第 构 化 数据 中 还 有 两 个 非常 重要 的 概念 害 要 介绍 一 下 ， 有 即 特征 (Feature ) 和 目标 弥 
(Label ) 这 是 机 合 学 习 算法 中 最 瘦 出 现 的 两 个 名 词 , 其 中 特征 表示 的 古 数 据 所 摘 述 对 象 的 
属性 ， 如 用 一 组 数据 来 形容 和信， 那么 这 个 人 的 号 局 、 体 重 、 性 别 和 年 龄 都 是 特征 。 在 结构 
化 数据 的 数据 集中 ， 每 一 列 数据 通 音 束 对 应 一 个 特征 。 
































目标 列表 示 的 是 每 一 份 数据 的 打 标 结果 ， 因 为 前 面 也 介绍 过 ， 机 融 学 习 的 原理 其 实 是 
从 历史 数据 中 来 学 习 经 验 ， 目标 列 表示 的 是 这 一 组 数据 的 结果 。 例 如 ， 我 们 想 通 过 一 份 体 
检 数 据 来 预测 对 象 是 否 有 心脏 病 ， 需要 先 通 过 成 二 上 万 份 的 训练 数据 来 生成 模型 ， 这 成 干 
上 万 份 的 训练 数据 需要 打 标 ， 也 就 是 说 机 妖 要 事先 知道 什么 样 体检 指标 的 人 患 病 了 ,什么 
样 的 人 没有 患 病 ， 这 样 才能 学 习 出 预测 模型 。 通 过 一 个 例子 来 说 明 ， 如 图 1-9 所 示 为 一 份 
心脏 病 预 测 需 要 的 数据 结果 , 其 中 框 起 来 的 字段 表示 的 是 对 象 是 否 患 病 , 这 一 列 是 目标 列 。 
其 他 3 MEZES age, sex 和 cp 摘 述 的 是 对 象 的 特征 ， 是 特征 列 。 
























































(2) 半 结 构 化 数据 。 半 结构 化 数据 是 指 按照 一 定 的 结构 存储 ， 但 不 是 二 维 的 数据 库 
行 存 储 形 态 的 数据 。 比 较 典 型 的 半 结 构 化 数据 束 是 XML 扩展 名 的 存储 数据 ， 如 图 1-10 
所 示 。 








«html» 


«body» 

<form action-"saveForm.asp" method-"post"» 

<h1> 请 输入 您 的 联系 信息 : </hi> 

<1abel> 名 字 : «/label» 

<p><input type="text" id="firstName”name="firstName"></py> 


«label»$tEK: «/label» 
<p><input type="text" id-"lastName" name-"lastName"»«/p» 


«label»[E €i: «/label» 
<p><input type="text" id-"country" name="country"></p> 


<label>Bif#: «/label» 
<p><input type="text" id-"email" name="email"></p> 


<p> 

<input type="submit" id-"btn sub" name="btn sub” value="Submit"> 
<input type="reset" id-"btn res" name="btn_res” value-"Reset"» 
</p> 

</form> 

</body> 


0 
2 
2 
1 
2 
2 
2 
2 
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</html> 


图 1-9 目标 列 说 明 R 1-10 半 结 构 化 数据 














画 一 种 半 结 构 化 数据 就 是 在 数据 表 中 ， 基 些 字段 是 文本 型 的 ， 基 些 字段 是 数值 型 的 。 
见 表 1-1。 
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表 1-1 半 结 构 化 数据 
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半 结 构 化 数据 常用 于 一 些 数据 的 传递 , 但 是 在 机 豆 学 习 算 法 相关 的 应 用 方面 还 有 一 定 
距离 ， 需 要 做 数据 转换 把 半 和 结构 化 数据 转 为 结构 化 数据 来 进行 操作 。 


(3) 非 结 构 化 数据 。 非 结构 化 数据 的 数据 挖掘 一 直 以 来 是 机 带 学 习 领 域 的 热点 话题 ， 
特别 是 随 看 深度 学 习 的 发 展 ， 目 前 对 于 非 结 构 化 数据 的 处 理 似乎 找到 了 方向 。 上 典型 的 非 结 
爸 化 数据 吕 是 图 像 、 文 本 或 者 是 语音 文件 。 这 些 数据 不 能 以 算 阵 的 结构 存储 ， 目 前 的 做 法 

挟 通 过 把 非 结构 化 数据 转 为 二 进 制 存 储 格 式 ， 然 后 通过 算法 来 挖 握 其 中 的 信息 。 第 6 章 
和 第 7 草 将 详细 介绍 如 何 使 用 深度 学 习 算 法 实现 非 结构 化 数据 的 处 理 。 


以 上 就 是 对 于 真实 业务 场景 下 需要 处 理 的 3 类 数据 结构 的 介绍 。 机 器 学 习 算 法 对 于 结 
爸 化 数据 的 文 持 是 比较 好 的 ， 对 于 半 结 构 化 数据 和 非 结 构 化 数据 ， 在 真实 的 业务 场景 
通 首 是 乞 把 这 两 类 数据 做 转化 ， 然 后 才 通过 算法 来 进行 数据 挖掘 。 关 于 非 结构 化 数据 转 为 
结构 化 数据 的 万 法 在 第 4 半 也 有 相关 介绍 。 





































































































1.3.3 算法 分 类 

寺 面 对 于 机 天 学 习 的 流程 和 数据 源 结 构 都 进行 了 介绍 ,下面 对 于 算法 的 分 类 进行 一 个 
简单 的 说 明 。 机 带 学 习 算法 包含 了 聚 类 、 回 归 、 分 类 和 文本 分 析 等 几 十 种 场景 的 算法 ,前 
用 的 算法 种 类 为 30 种 左右 ， 而 且 还 有 很 多 的 变形 ， 我 们 将 机 带 学 习 分 为 4 种 ， 分 别 是 监 


督学 习 、 无 监督 学 习 、 半 监督 学 习 和 增强 学 习 。 



































(1) 监督 和 学习。 监督 学 习 (Supervised Learning )， 是 指 每 个 进入 算法 的 训练 数据 样本 
都 有 对 应 的 期 下 值 也 就 是 目标 值 , 进行 机 器 学 习 的 过 程 实际 上 就 是 特征 值 和 目标 队列 映射 
的 过 程 。 例 如 ， 我 们 已 知 一 只 股票 的 历史 走势 以 及 它 的 一 些 公司 胡 利 、 公 司 人 数 等 信息 ， 
想 要 预测 这 只 上 股票 未 来 的 走势 。 那 么 在 训练 算法 模型 的 过 程 中 ， 束 是 希望 通过 计算 得 到 一 
个 公式 ， 可 以 反映 公司 三 利 、 公 司 人 数 这 些 信 息 对 于 股票 走势 的 影响 。 通 过 过 往 的 一 些 数 
据 的 特征 以 及 最 终结 果 来 进行 训练 的 方式 就 是 监督 学 习 法 。 监 督学 习 算法 的 训练 数据 源 需 
要 由 特征 值 以 及 目标 队列 两 部 分 组 成 。 
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如 图 1-11 所 示 ，ifhealth APA, age, sex 和 cp 为 特征 队列 ， 这 融 是 一 个 典型 的 监 
督学 习 的 训练 数据 集 。 因 为 监督 学 习 依赖 于 每 个 样本 的 打 标 ,可 以 得 到 每 个 特征 序列 映射 到 
的 确切 的 目标 值 是 什么 ， 所 以 常用 于 回归 以 及 分 类 场景 。 和 常见 的 监督 学 习 算法 见 表 1-2。 

表 1-2 监督 学 习 


分 类 算法 K 近邻 、 朴 系 贝 叶 斯 、 雇 和 俩 树 、 随 机 和 森林、GBDT 和 文 持 回 量 机 等 
回归 算法 逻辑 回归 、 线 性 回归 等 




















监督 学 习 的 一 个 问题 融 是 获得 目标 值 的 成 本 比较 高 。 例 
AU, 我 们 想 预 测 一 个 电影 的 好 坏 , 那么 在 生成 训练 集 的 时 候 
要 依赖 于 对 大 量 电 影 的 人 工 标注 ,这 样 的 人 力 代价 使 得 监督 
学 习 在 一 定 程度 上 是 一 种 成 本 比较 高 的 学 习 方 法 。 如 何 获得 
大 量 的 标记 数据 一 直 是 监督 学 习 面 临 的 一 道 难 题 。 















































(2 ) 无 监督 和 学习。 无 监督 学 习 ( Unsupervised Learning ), 
学 习 上 面 运 的 监督 学 习 的 概念 之 后 ,其 实 无 监督 学 习 就 比较 
好 理解 了 。 无 监督 学 习 束 是 指 训练 样本 不 依赖 于 打 标 数据 的 
机 器 学 习 算法 。 既 然 是 没有 目标 队列 , 也 就 缺少 了 特征 环境 
下 的 最 终结 果 ， 那 么 这 样 的 数据 可 能 对 一 些 回 归 和 分 类 的 场景 束 不 适合 了 。 无 监督 学 习 主 
要 是 用 来 解决 一 些 聚 类 场景 的 问题 ， 因 为 当 我 们 的 训 练 数 据 缺 失 了 目标 值 忆 后 ， 能 做 的 事 
情 丈 只 剩 下 比 对 不 同样 本 间 的 距离 关系 。 和 荫 见 的 无 监督 学 习 算法 见 表 1-3。 


表 1-3 半 监 督学 习 
类 算法 K-Means、DBSCAN 等 
推荐 算法 协同 过 滤 等 


相 较 于 监督 学 习 , 无 监督 学 习 的 一 大 好 处 就 是 不 依赖 于 打 标 数据 , 在 很 多 特定 条 件 下 ， 
特别 是 打 标 数据 需要 依 知 大 量 人 工 来 获得 的 情况 下 可 以 符 试 使 用 无 监督 学 习 或 者 半 监 督 
学 习 来 解决 问题 。 


(3) 半 监 督学 习 。 半 监督 学 习 ( Semi-supervised Learning ), feat) FEB MATT 
一 种 机 器 学 习 种 类 。 上 文中 也 提 到 , 在 一 些 场景 下 获得 打 标 数据 是 很 耗费 资源 的 ,但 是 无 监 
督学 习 对 于 解决 分 类 和 回归 这 样 场景 的 问题 义 有 一 些 难 度 。 所 以 入 们 开始 尝试 通过 对 样本 的 
部 分 打 标 来 进行 机 器 学 习 算 法 的 使 用 , 这 种 部 分 打 标 样本 的 训练 数据 的 算法 应 用 , 就 是 半 监 
丢 学 习 。 目 前 很 多 半 监 督学 习 算法 都 是 监督 学 习 算法 的 变形 , 本 书 将 介绍 一 种 半 监 督学 习 算 
法 一 一 标签 传播 算法 。 其 实 目前 半 监 督 算法 已 经 有 很 多 的 应 用 了 ， 推 荐 大 家 去 深入 了 解 。 
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( 4) 强化 学 习 。 强化 学 习 ( Reinforcement Learning ), 是 一 种 比较 复杂 的 机 器 学 习 种 类 ， 
强调 的 是 系统 与 外 界 不 断 地 交互 ， 获 得 外 界 的 反馈 ， 然 后 决定 自身 的 行为 。 强 化 学 习 目 前 
是 人 工 智能 领域 的 一 个 热点 算法 种 类 ， 典 型 的 案例 包括 无 人 汽车 芍 驶 和 阿尔 法 狗 下 围棋 。 
本 书 介绍 的 分 词 算法 隐 马 尔 科 夫 就 是 一 种 强化 学 习 的 思想 。 

于 面 就 是 关于 监督 学 习 、 无 监督 学 习 、 半 监督 学 习 和 强化 学 习 的 一 些 介绍 。 监 督学 习 
主要 解决 的 是 分 类 和 回归 的 场景 ,无 监督 学 习 主要 解决 聚 类 场景 ， 半 监督 学 习 解决 的 是 一 
些 打 标 数据 比较 难 获得 的 分 类 场景 ， 强 化 学 习 主要 是 针对 流程 中 不 断 需 要 推理 的 场景 。 本 
书 对 于 这 4 类 机 器 学 习 算 法 都 有 介绍 ， 有 具体 的 分 类 见 表 1-4， 方 便 大 家 有 针对 性 的 学 习 。 


表 1-4 算法 分 类 







































































监督 学 习 逻辑 回归 、 玫 近邻 、 朴 又 贝 叶 斯 、 随 机 森 立 、 文 持 同 量 机 
无 监督 学 习 K-means、DBSCAN、 协 同 过 滤 、LDA 

半 监 督学 习 标签 传播 

强化 学 习 隐 马 尔 可 夫 


1.3.4 过 拟 合 问 题 


机 何 学 习 模 型 训练 的 过 程 中 会 过 到 非常 多 的 问题 ， 如 参数 或 者 梯度 的 设置 个 合理 、 数 
据 的 消 尝 人 不够 彻底 , 但 是 如 末 问 一 个 数据 挖掘 工程 师 什 么 问题 是 数据 挖 掘 领 域 中 最 贡 网 的 
问题 ， 他 的 管 生 八成 是 “过 拟 合 "， 这 也 是 为 什么 我 们 要 早 独 拿 出 一 小 市 来 讲 一 下 数据 挖 
据 过 程 中 的 过 拟 合 问题 。 


过 拟 合 (Overfitting )， 从 字面 的 晶 义 上 理解 的 话 就 是 过 度 拟 合 的 意思 ,和音 发 生 在 线性 
分 类 天 或 者 线性 模型 的 训练 和 预测 当中 。 过 拟 合 现 角 是 在 数据 挖 据 过 程 中 经 首 会 遇 到 的 问 
于， 如 通过 训练 集训 练 了 一 个 模型 ， 这 个 模型 对 于 训练 集 的 预测 准确 率 很 高 ， 可 以 达到 
95%， 但 十 我 们 换 一 份 数据 集 进 行 预 出 ， 发 现 人 准确 率 只 有 30%， 出 现 这 种 情况 的 原因 很 有 
可 能 是 训练 的 过 拟 合 现 角 。 


过 拟 合 的 原理 就 是 机 希 学 习 算 法 过 度 学 习 了 训练 集 数 据 , 听 上 去 有 点 难以 理解 ， 下 面 
通过 一 个 例子 进行 解释 。 假 设 我 们 有 一 组 二 维 数 据 展示 在 坐标 系 当中 ， 我们 想 对 这 个 二 维 
数据 进行 一 个 线性 的 回归 训练 。 如 来 拟 合 出 的 曲线 是 如 图 1-12 所 示 的 虚线 , 其 实 是 一 种 及 
WG Cunderfitting ) 的 形式 ， 曲 线 拟 合 的 并 不 理想 ， 因 为 并 没有 通过 回归 算法 很 好 地 拟 合 
出 一 种 符合 数据 分 布 的 曲线 。 
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我 们 冉 来 看 看 图 1-13。 





1-12 ”线性 拟 合 曲线 一 1-13 线性 拟 合 曲线 二 


如 果 最 终 拟 合 出 来 的 是 如 图 1-13 所 示 情 况 , 就 是 一 种 比较 理想 的 状 襄 , 我 们 看 到 最终 
的 曲线 走势 已 经 几乎 刻画 了 数据 的 分 布 ， 这 种 曲线 是 比较 理想 的 。 那 么 什么 是 过 拟 合 呢 ? 
我 们 来 看 下 图 1-14。 


如 图 1-14 所 示 这 种 情况 是 典型 的 过 拟 合 ， 
图 中 的 曲线 已 经 跟 数据 分 布 完全 一 致 。 那 么 有 的 
人 可 能 会 问 , 做 线性 回归 的 目的 不 就 是 为 了 找到 
最 符合 数据 走向 的 曲线 么 , 为 什么 当 我 们 拿 到 的 
结果 跟 数 据 走 向 完全 匹配 的 时 候 反 而 不 好 呢 ? 
这 是 因为 训练 线性 回归 曲线 或 者 线性 分 类 器 的 
目的 是 要 对 于 其 他 数据 集 进行 分 类 或 者 预测 。 如 
果 在 针对 训练 集 做 曲线 拟 合 的 时 候 做 得 过 于 “ 完 
美 "， 那 么 当 我 们 针对 于 其 他 预测 集 进行 预测 的 图 1-14 ”线性 拟 合 曲线 三 
时 候 , 这 套 模 型 很 有 可 能 会 失 准 , 因为 这 套 模型 在 训练 的 时 候 过 度 地 接近 于 训练 集 的 特征 ， 
缺乏 鲁 棒 性 。 所 以 在 机 器 学 习 训 练 过 程 中 ，100% 的 拟 合 训练 集 数 据 并 不 一 定 是 好 的 。 
通过 前 面 的 介绍 ,我 们 已 经 明白 了 过 拟 合 发 生 的 现象 和 原理 ， 那 么 究竟 是 什么 原因 时 
致 了 过 拟 合 问 题 的 出 现 昵 ? 原因 可 以 总 结 为 以 下 几 种 。 
e 训练 数据 集 样本 单一 ， 如 训练 样本 只 有 白色 曰 子 的 数据 , 我 们 拿 生 成 的 模型 去 预测 
墨 鸭子 肯定 是 不 对 的 。 所 以 在 做 训练 的 过 程 中 ,要求 训 练 样本 要 尽 可 能 地 全 面 , 78 
蔓 所 有 的 数据 类 型 。 
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训练 样本 噪音 数据 干扰 过 大 , 噪音 数据 是 指数 据 索 中 的 干扰 数据 。 过 多 的 噪音 数据 
会 导致 柄 型 记录 了 很 多 噪音 特征 ， 忽 略 了 输入 和 输出 之 间 的 关系 。 


e 模型 过 于 复 沫 ， 模 型 参数 太 多 往往 也 是 造成 过 拟 合 现 角 的 一 个 重要 因素。 所 以 
一 个 成 败 的 模型 不 一 定 是 非 稼 复杂 的 ， 而 是 要 求 模型 对 于 不 同 的 数据 和 集 都 有 稳 
定 的 输出 表现 。 


针对 过 拟 合 这 样 的 常见 性 问题 ， 其 实 已 经 有 了 很 多 预防 和 解决 的 办 法 如 下 所 示 。 


。 在 训练 和 建立 模型 的 时 候 , 一 定 要 从 相对 简单 的 模型 开始 , 不 要 一 上 来 就 把 模型 调 
AFER Eia. BFÜEIE do, 这样 很 容易 造成 过 拟 合 现 家 的 发 生 。 而 且 当 模型 过于 复 
杂 而 造成 过 拟 合 现象 发 生 之 后 ， 也 比较 难于 排查 具体 的 问题 出 在 哪 一 部 分 特征 。 


o 数据 的 采样 ,一 定 要 尽 可 能 地 和 窗 孟 全 部 数据 种 类 。 故 外 ,数据 需要 经 过 清洗 后 下 进 
行 算法 训练 ， 否 则 如 采 混 入 了 大 量 噪声 数据 ， 会 加 大 过 拟 合 问题 发 生 的 概率 。 


e 在 模型 的 训练 过 程 中 , 我 们 也 可 以 利用 数学 手段 预 历 过 拟 合 现 角 的 发 生 , 可 以 在 算 
法 中 雇 加 惩罚 国 数 米 预 防 过 拟 合 ， 这 里 如 果 想 详细 了 解 可 以 参考 正则 化 L1. L2 规 
泄 ， 本 书 融 不 对 这 部 分 内 容 展开 来 讲 了 。 


以 上 对 于 过 拟 合 问题 进行 了 基本 的 描述 ,而 且 也 介绍 了 问题 发 生 的 原因 以 及 预防 的 方 
法 。 因 为 过 拟 合 问题 是 在 使 用 机 带 学 习 算 法 的 过 程 中 非 负 有 可 能 税 到 的 问题 ， 所 以 营 握 这 
方面 的 知识 以 及 应 对 手段 是 非常 重要 的 。 和 希望 通过 本 末 的 学 习 ， 大 家 可 以 在 模型 训练 当中 
有 意识 地 避免 过 拟 合 问题 的 发 生 。 




























































































1.3.5 结果 评估 


前 文 介 绍 了 一 些 机 器 学 习 算法 在 具体 数据 挖掘 过 程 中 可 能 会 遇 到 的 一 些 概念 和 名 词 ， 
我 们 知道 机 器 学 习 算法 的 最 终 目 的 是 生成 模型 ， 模 型 的 好 坏 需 要 通过 一 些 指标 来 评估 ， 现 
在 就 来 介绍 一 下 在 机 需 学 习 算 法 中 可 能 用 到 的 一 些 关 于 结果 评估 的 概念 。 靖 用 到 的 概念 可 
能 包括 精确 率 、 召 回 率 、F1 值 、ROC 和 AUC 几 种 ， 看 上 去 概念 有 点 多 ， 因 为 每 个 指标 都 
是 从 不 同 维度 来 对 结果 进行 评估 ， 下 面 将 分 别 介绍 这 几 个 概念 的 含义 。 





























(1 ) 精 确 率 、 召 回 率 、Fl 值 。 因 为 精确 率 ( Precision ), 召回 率 ( Recall ) 和 F1( F-Measure ) 
值 常 被 放 在 一 起 作 比 较 ， 所 以 把 相关 的 这 3 个 指标 放 在 一 起 介绍 。 计 算 这 3 个 指标 还 需要 
先 了 解 下 TP、TN、FP 和 FN 这 4 个 指标 的 含义 。 
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e TP (True Positive): 本 来 是 正 样 本 ， 被 模型 预测 为 正 样 本 。 

e TN (True Negative): 本 来 是 负 样本 ， 被 模型 预 训 为 负 样 本 。 

e FP ( False Positive ): 本 来 是 负 样本 ， 被 模型 预测 为 正 样 本 。 

e FN (False Negative ): 本 来 是 正 样本 ， 补 模型 预测 为 负 样本 。 

上 面 这 4 个 概念 读 上 去 有 点 难以 理解 ,我们 通过 一 个 实际 的 案例 讲解 一 下 。 例 如 有 一 
个 预测 集 ， 里 面 有 500 个 女生 和 100 个 男生 ， 需 要 通过 机 器 学 习 生 成 模型 ， 尽 可 能 地 区 分 
数据 集中 的 女生 , 所 以 女生 是 正 样 本 , 假如 我 们 最 终 的 预测 结果 是 70 个 文生 和 20 个 男生 。 
下 面 计 算 精 确 率 、 召 回 率 以 及 Fl 值 ， 首 先 要 计算 TP. TN, FP 和 FN 这 4 个 值 。 在 这 个 
案例 里 面 ，TP 为 本 来 是 文生 又 被 预测 为 女生 的 人 数 ， 所 以 TP 的 值 为 70; FP 表示 本 来 是 
男生 被 预测 为 女生 的 人 数 , FP 的 值 为 20; EN 表示 本 来 是 女生 但 被 预测 为 男生 的 人 数 ，FN 
的 值 为 500-70=430。 


最 终 精 确 率 、 召 回 率 、F1l 值 的 公式 如 下 。 












































TP 
精确 率 = n c8 
TP+FP 70-20 
TP 70 

A 


率 = = = 0.14 
TP+FN 704430 


2x 精 确 率 x 召回 率 2x0.78x0.14 
Fl= 一 一 一 一 一 一 一 二 一 一 一 一 一 一 二 0.237 
5 Df 258-4 [n] E 0.78+0.14 








通过 上 面 的 公 云 可 以 看 出 , ECS A HE AOR VTL AE UU EST LE AY 
比例 。 召 回 率 表 示 的 是 在 预 调 到 的 正祥 例 占 全 部 正 样 例 的 比例 。 这 可 以 看 到 精 硝 率 和 召回 
率 是 对 模型 的 两 个 维度 的 评 佑 ， 前 者 评估 的 是 惟 确 性 ， 后 者 评估 的 是 敢 盖 率 。 当 然 在 实际 
的 模型 评估 中 ,我 们 硕 理 精 硝 率 和 台 回 率 都 尽 可 能 高 ， 但 是 实际 上 这 两 个 指标 是 相互 巴 眉 
的 ， 为 了 更 均衡 的 评 佑 狂 确 率 和 如 回 率 ， 我 们 创建 了 Fl fH. Fl 值 表达 的 是 精确 率 和 如 回 
率 的 综合 评估 ,现在 很 多 的 模型 评估 都 是 通过 Fl 值 来 做 ,就 古 考 虑 到 了 Fl 值 可 以 把 这 两 
个 指标 结合 在 一 起 来 评估 。 












































(2) ROC 和 AUC。ROC ( Receiver Operating Characteristic Curve ) 曲线 是 党 用 的 二 分 
类 场景 的 模型 评估 算法 曲线 ，ROC 曲线 的 样 例如 图 1-15 所 示 。 
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图 1-15 ROC 曲线 


图 1-15 中 的 次 状 弧 形 曲线 就 是 ROC 曲线 ， 这 个 曲线 的 横 轴 为 上 面 提 到 的 FP fü, TP 
值 是 纵 轴 。 如 何 来 评估 模型 的 好 坏 呢 ? 通过 ROC 曲线 可 以 清晰 地 展示 出 来 ， 只 要 是 模型 
曲线 越 接 近 于 左上 角 就 说 明 模 型 的 效果 越 好 。 通过 AUC 值 来 表示 ROC 曲线 与 横 轴 围 起 来 
的 面积 (也 就 是 图 1-15 中 有 颜色 履 盖 的 部 分 )， 这 个 AUC 值 越 大 表示 模型 的 效果 越 好 。 
AUC 的 取 值 是 0 到 1， 通 常 大 于 0.5, 4 AUC 的 取 值 达到 0.9 以 上 时 ， 证 明 这 个 模型 的 效 
果 是 比较 不 错 的 。 

上 面 介绍 了 ROC 和 AUC 两 个 指标 的 概念 ，AUC 是 通过 ROC 曲线 计算 出 来 的 面积 实 
现 的 。AUC 和 F1 值 一 样 ， 都 是 通过 一 个 数值 来 对 于 最 终 的 结果 进行 评估 的 。ROC 的 作用 
更 多 是 通过 对 于 曲线 的 光 请 程度 以 及 曲线 的 斜率 来 获取 模型 内 包含 的 信息 。 

















1.4 本章 小 结 








本 草 作 为 全 书 的 开 访 革 市 ,通过 对 于 人 工党 能 颈 域 的 发 展 历 史 引 出 了 本 书 的 主角 一 一 
Nae SHE, FSA SECA SBA A AER, IEE Ae Pe EEA 
FK, Artech GEE CRIA T 3X 3S1 ERJSCNS BS AS BIST aR TB Lae od 
法 的 发 展现 状 , 帮助 读者 梳理 了 这 一 学 科 的 应 用 领域 , 力 外 通过 对 于 一 些 基础 概念 的 介绍 ， 
AMS Til eI AT). AS babes, MAMEA AN sd EE 


介绍 。 
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第 2 部 分 


算法 流程 


52s 
场景 解析 


第 1 草 介 绍 了 一 些 机 页 学 习 的 背景 和 基础 慨 念 , 从 这 一 章 开 始 , 我 们 会 按照 整个 数据 挖 
据 的 流程 来 分 模块 进行 介绍 。 本章 其 实 古 机 侣 学习 实验 的 准备 阶段 , 笔者 把 这 一 阶段 叫 作 场 
景 解 析 阶 段 。 场 景 解析 是 机 带 学 习 实 验 中 很 关键 的 一 个 步骤 ,需要 做 到 对 整个 业务 则 辑 的 抽 
象 以 及 后 续 的 算法 选择 。 如 采 把 挫 建 一 僚机 责 学 习 算 法 当 作 一 篇 话题 作文 题目 的 话 , 那么 场 
景 解析 阶段 束 相 当 于 审题 阶段 , 如 条 考试 的 时 候 写 作文 出 现 审题 错 评 , 可 能 对 接 下 来 的 写作 
会 有 非 弟 大 的 影响 ， 这 也 束 是 老者 把 场景 解析 这 一 半 蛙 独 拿 出 来 介绍 的 原因 。 



































2.1 SORAA 








拿 到 一 份 效 据 ， 如 朱 想 从 中 分 析出 一 些 内 容 ， 首 抑 要 了 解 这 份 数 据 ， 也 允 定 这 一 站 中 
我 们 要 介绍 的 数据 探查 。 数 据 探 查 可 以 从 很 多 维度 来 做 ,我 们 可 以 在 这 一 阶段 了 解数 据 的 
类 型 、 大 小 和 分 布 等 属性 ， 为 接 下 来 的 进一步 场景 抽象 和 算法 选择 做 人 惟 备 。 下 面 从 几 个 维 
度 介绍 一 下 效 据 探 查 工 作 。 


(1) 数据 量 的 大 小 。 人 工 智 能 建立 在 大 数据 的 基础 之 上 ， 有 是 否 有 足够 的 数据 量 ， 对 机 
吉 学 习 算法 的 效果 有 直接 影响 。 这 里 的 数据 量 更 多 的 是 指数 据 的 条 数 ， 而 不 是 数据 占用 的 
存储 空间 大 小 。 因 为 通 贡 米 计 ， 机 融 学 习 算法 的 数据 源 郡 是 矩阵 形式 的 ， 如 图 2-1 所 示 ， 
绝 大 多 数 情况 下 数据 大 小 跟 条 数 是 成 正比 的 。 


其 实 很 多 人 都 知道 ， 在 机 带 学 习 中 ， 数 据 量 越 大 效 采 越 好 的 道理 。 但 是 具体 的 原因 人 很 
多 人 都 说 不 清 竹 。 这 里 以 机 融 学 习 的 最 优化 自 法 之 一 梯度 下 降 法 为 例 简 单 地 说 明 一 个 , Be 
肛 下 降 法 通过 带 归 的 方式 尿 渐 允 近 最 小 偏差 模型 来 实现 模型 的 最 优 。 梯 度 下 降 法 ( 见 图 
2-2) 可 以 看 作 一 个 向 终点 ( 最 优 模 型 ) A Re, kad od ee Bee LL, 
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一 开始 我 们 在 图 2-2 中 的 xo 位 置 ， 也 瓯 是 山脚 下 。 每 向 算 法 中 蕉 入 一 部 分 数据 ， 残 向 上 前 
进一步 , 从 xo 到 xi HERI x» ， 直 至 到 走 到 山顶 达到 最 优 效 来 。 所 以 在 数据 探查 阶段 ,我 们 
要 保证 数据 量 可 以 实现 算法 收敛 或 者 模型 的 最 优 。 当 然 ， 不 同 复 法 需要 的 数据 量 也 是 不 同 
的 ， 这 要 看 其 体 算法 是 线性 的 还 是 树 形 结构 的 。 除 此 之 外 ,这 跟 邱 阵 的 维度 也 有 很 大 的 天 
系 ， 维 度 越 多 则 可 能 需要 的 数据 量 也 越 大 ， 具 体 情况 要 具体 分 析 。 总 体 来 看 ， 我 们 还 是 而 
翌 机 豆 学 习 的 数据 可 以 尽 可 能 的 大 。 
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Self-emp-n... 209642 HS-grad 





Private 45781 Masters 


图 2-1 和 矩阵 式 存储 数据 源 图 2-2 梯度 下 降 法 


(2) 数据 缺失 或 乱 合 。 数 据 是 否 有 缺失 值 或 者 乱 但 往往 是 评判 数据 质量 的 关键 因素 。 

为 机 带 学 习 算 法 在 数据 的 流转 过 程 中 要 进行 数据 的 乘除 或 者 是 气 阵 的 分 解 等 计算 ， 如 宁 
数据 的 质量 不 高 ， 里 面 有 许多 的 缺失 值 或 者 乱码 出 现 ， 我们 会 说 这 份 数 据 很 “ 脏 ”， 需 要 
进行 很 多 的 ETL 操作 ( 描述 将 数据 从 来 源 辣 经 过 抽取 (Extract )、 转 换 (Transform )、 加 
2% (Load) 至 目的 端的 过 程 )， 称 为 “数据 清洗 ”。 数 据 和 清洗 是 一 项 艰巨 而 复杂 的 工作 ， 
为 目前 的 互联 网 数据 多 数 是 通过 用 户 的 行为 日 志 来 采集 的 , 数据 在 采集 过 程 中 或 多 或 少 地 
都 会 出 现 乱 但 或 者 是 缺失 值 。 对 乱 介 和 缺失 值 的 数据 预 处 理工 作 将 会 提高 后 期 算法 运作 的 
效率 ， 减 少 不 必 要 的 问题 出 现 。 


(3) 字段 类 型 。 流 入 算法 的 数据 通 前 是 存储 在 数据 库 中 的 ， 数 据 库 的 字段 分 为 以 下 几 
PRRI, ARR (int) FIFE (string) DOSEER (double ) AAU ETE AŽ (float ) 
等 ， AIRSET AeA Se BORA. MULES, Eee Re SF. 
TERR, REN Aig BO ce SUAS, TBA LR AAA a ET OUI SENE 
和 数值 型 全 部 文 持 。 


( 4) 是 奋 含 有 目标 队列 。 做 坟 [ 右 学 习 训练 的 人 ， 拿 到 数据 之 后 都 会 去 看 一 眼 数 据 是 盏 有 









































































































































2.2 场景 抽象 2 














目标 队列 ， 这 关系 到 接 下 来 的 算法 选择 是 有 监督 学 习 还 是 无 监督 学 习 。 如 末 没 有 目标 队列 ， 
南 要 考虑 是 侣 可 以 通过 一 坚 ETL 操作 来 生成 , 这 一 环 了 对 于 接 下 来 算法 选择 的 意义 非 汕 重大 。 


以 上 4 氮 是 笔者 根据 工作 经 验 总 结 出 米 的 数据 探查 过 程 中 的 几 点 要 素 。 数 据 探查 可 以 
带 助 数据 挖 据 工 程 师 更 好 地 理解 数据 ， 棕 前 和 营 握 数据 质量 ， 规 性 风险 。 当 然 ， 数 据 控 碍 还 
有 很 多 工作 可 以 做 ， 如 了 解数 据 的 方差 、 标 人 准 差 、 最 大 值 、 最 小 值 和 仿 差 等 ， 这 坚 指标 都 
对 后 续 的 特征 工程 及 算法 的 册 试 起 指导 作用 。 















































2.2 场景 抽象 





平日 里 接触 各 户 的 时 候 总 能 听 到 这 样 的 话 :“ 我 知道 机 带 学 习 很 好 ， 能 对 我 的 业务 市 
来 帮助 ， 我 也 有 数据 ， 你 能 不 能 帮 我 设计 下 我 的 场景 ， 告 诉 我 怎么 利用 大 数据 。 所 以 ， 
有 了 数据 之 后 ,不 知道 能 用 数据 做 什么 ， 这 坪 阻 得 大 多 企业 ， 特 别 是 传统 行业 ， 癌 数据 驱 
动 转化 的 拦路 虎 。 


yee thawed BAW, PTR VA AA ose. ARIK, laste 
BORA Sse Bui 8, ZTR, RRM., Jarr SEHA mR BY 
业务 逻辑 抽象 成 以 上 几 种 场景 的 能 力 ， 这 里 举例 说 明 。 


(1) 商品 推荐 。 目 前 仪 国 内 就 有 上 干 家 电 商 平台 ， 绝 大 多 数 电 两 平台 都 自己 搭建 或 者 
使 用 第 三 方 的 商品 推荐 ( 见 图 2-3) 系统 来 提高 自己 商品 的 推荐 命中 率 ( 命中 率 是 指 推荐 
商品 被 购买 的 概率 )。 其 实 推荐 系统 是 一 个 典型 的 二 分 类 问题 。 以 常见 的 购买 行为 数据 为 
例 ， 通 铺 电 商 网 站 的 用 户 理 点 数据 见 表 2-1。 
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图 2-3 商品 推荐 
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表 2-1 用 户 埋 点 数据 


注 :“ 购 物 行 为 ”中 0 表示 扩 击 ，1 表示 收藏 ，2 表示 购物 车 ;“ 是 售 购 买 ”中 1 表示 购买 ，0 表示 不 购买 。 


在 场景 抽象 时 , 对 于 一 个 用 户 A 和 一 个 产品 B, 我 们 只 关心 用 户 A 是 否 会 购买 产品 B, 
OSLO A VASAT ATH Se” Bag “FR” OA ote label, A ITH, Be 
POR n] LAGE PERE IN 4 eG, DETER BUTS Nag n] VA AE 25S. ETL 处 理 的 流 
Fe, REE OR, BEEMAN VR E RARE 5 | SP EK T o 


(2) 疾病 预测 。 随 着 国内 人 口 的 逐步 老龄 
化 ,健康 问题 得 到 了 越 来 越 多 的 关注 ,人 们 也 
在 想 , 大 数据 是 否 可 以 帮助 人 们 进行 一 些 疾病 
的 预防 和 治疗 ( 见 图 2-4), 疾病 预测 就 是 这 样 
的 一 个 典型 案例 。 以 癌症 为 例 , 癌症 可 以 简单 
分 为 早期 、 中 期 和 晚期 3 种 发 病 期 , 每 种 发 病 
期 都 有 自己 的 对 应 症状 , 所 以 只 要 挖掘 每 个 时 
期 的 不 同 病 变 特征 , 就 可 以 实现 预测 ,进而 可 
以 把 癌症 预测 抽象 成 一 个 多 分 类 的 场景 。 有 了 图 2-4 疾病 预测 
这 样 的 场景 ， 就 可 以 指导 我 们 在 算法 选择 方面 的 工作 。 


(3) 人 物 关 系 挖 据 。 关 系 挖 据 也 是 数据 运营 中 经 常会 过 到 的 场景 ,如 用 户 有 一 份 通话 
数据 ， 这 份 通 话 数 据 包含 了 NN 个 用 户 和 他 们 之 间 的 通话 记录 数据 ， 见 表 2-2。 







































































表 2-2 通话 记录 数据 
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人 物 通话 的 关系 图 谱 〈 见 图 2-5) 中 ， 人 和 人 之 间 通 过 通话 这 样 的 行为 相互 连接 ， 连 接 的 
紧密 程度 可 以 通过 通话 的 次 数 和 时 长 来 表示 ， 这 残 可 以 抽象 成 数学 里 面 的 图 论 内 容 ， 图 论 
包含 点 、 边 和 权重 的 概念 ， 进 而 可 以 选择 图 算法 来 分 析 这 样 的 场景 。 


万 外 ， 如 东 有 一 份 人 群 属性 数据 ， 需 要 把 人 和 群 按照 性 别 划分 ， 这 束 是 一 个 典型 的 聚 类 
场景 。 如 宋 有 菏 上 股票 的 历史 走 癌 数 据 ， 需 要 预测 股票 下 一 阶段 每 一 大 的 走势 数值 ， 这 是 一 
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个 回归 间 题 。 总 之 ,场景 抽象 是 数据 挖 据 的 天 键 一 步 ， 只 有 了 明确 了 业务 场景 和 需求 ,并 且 
将 其 抽象 成 算法 逻辑 ， 才 能 正确 地 搭建 整个 实验 的 流程 。 场 景 抽象 的 时 低 需 要 具备 下 面 两 
个 能 力 : 一 古 对 于 目 届 的 业务 有 充分 的 认识 ; 二 是 对 算法 逻辑 有 大 概 的 了 解 。 
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2.2 廊 中 介绍 了 如 何 将 业务 逻辑 抽 家 成 算法 场景 , 这 需要 用 户 对 目 且 的 业务 有 一 定 的 
判断 ， 到 撒 是 二 分 类 、 多 分 类 还 旦 桶 类 、 回 归 等 。 态 外 ， 根 据 第 1 草 的 介绍 我 们 也 了 解 
到 ， 机 融 学 习 算法 按照 模型 的 训练 方式 可 以 划分 为 监 丢 学习、 半 监 督学 习 、 无 监督 学 习 
和 强化 学 习 4 个 种 类 ， 下面 我 们 就 来 看 一 下 如 何 选 择 算 法 来 解决 相应 的 业务 场景 中 的 问 
题 。 天 于 算法 的 选择 方式 ， 笔 者 总 结 了 3 点 原则 ， 分 别 是 确定 算法 范围 、 多 算法 符 试 和 
多 视角 分 析 。 


C1) 确定 算法 汇 围 。 我 们 先 来 介绍 一 下 如 何 明 确 特定 场景 下 的 算法 ， 这 里 以 剃 规 的 结 
构 化 数据 为 例 来 说 明 。 下 先 通 过 上 文 介绍 的 场景 解析 的 第 1 步 ， 也 束 是 数据 探查 可 以 了 解 
到 数据 的 种 类 ， 如 采 是 数值 形式 的 数据 会 选择 瘦 规 的 基于 数值 运算 的 机 侣 学 习 算 法 。 第 2 
步 , 判断 数据 是 否 丰 在 目标 队列 , 如 朱 数 据 是 有 目标 值 的 , 那么 可 以 选用 监 叔 学 习 的 算法 ; 
如 末 人 不行 在 束 只 能 选择 无 监 避 学 习 的 算法 。 第 3 步 ， 根 据 实际 的 业务 场景 ， 选 择 分 类 、 聚 
类 或 者 回归 算法 。 这 时 候 其 实 已 经 把 算法 的 选择 约束 到 一 个 比较 小 的 泡 围 了 。 如 图 2-6 所 
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示 数 据 ， 需 求 是 过 做 心脏 病 预测 ， 征 一 个 二 分 类 场景 ， 然 后 它 义 包含 目标 列 ， 征 监督 学 习 
算法 。 村 是 算 法 选择 艺 围 融 限 定 到 了 逻辑 回归 、 随 机 森林 、 朴 素 册 时 斯 、 文 持 癌 量 机 和 和民 
近邻 (只 列举 了 本 书 介绍 的 符合 标准 的 算法 )。 
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63.0 1 0 145.0 233.0 1 2 150.0 0 2.3 2 0.0 1 
67.0 1 2 160.0 286.0 0 2 108.0 1 1.5 1 3.0 0 
67.0 1 2 120.0 229.0 0 2 129.0 1 2.6 1 2.0 2 
37.0 1 1 130.0 250.0 0 0 187.0 0 3.5 2 0.0 0 
41.0 0 2 130.0 204.0 0 2 172.0 0 1.4 0 0.0 0 
56.0 1 2 120.0 236.0 0 0 178.0 0 0.8 0 0.0 0 
62.0 0 2 140.0 268.0 0 2 160.0 0 3.6 2 2.0 0 
57.0 0 2 120.0 354.0 0 0 163.0 1 0.6 0 0.0 0 
63.0 1 2 130.0 254.0 0 2 147.0 0 1.4 1 1.0 2 
53.0 1 2 140.0 203.0 1 2 155.0 1 3.1 2 0.0 2 


2-6 心脏 病 预 测 数据 








(2) 多 算法 符 试 。 通 过 确定 算法 范围 ， 我 们 已 经 明确 了 选用 算法 的 种 类 ， 那 么 具体 要 
选择 哪个 算法 呢 ? 这 里 可 以 根据 数据 的 分 布 米 判 新 , 根据 数据 是 离散 的 还 是 线性 的 分 布 来 
选 撑 线 性 的 算法 或 是 其 他 结构 的 算法 。 笔 者 认 为 比较 好 的 方式 是 多 答 试 儿 种 算法 ， 选 择 效 
末 比 较 好 的 一 种 应 用 到 实际 业务 中 去 。 因 为 不 同 的 数据 适用 的 算法 不 同 , 不 存在 明确 的 对 
应 天 系 表明 哪些 算法 对 应 哪 种 数据 的 效 玉 一 定 吓 好 的 ， 所 以 在 算法 的 选择 上 ， 当 明确 了 范 
峰之 后 ， 建 议 可 以 仿 可 能 地 多 竺 试 不 同 算法 的 组 合 。 图 2-7 所 示 为 通过 随机 和 森林 和 远 辑 回 
归 两 个 算法 问 时 处 理 一 份 数 据 ， 比 较 这 两 个 算法 最 终结 未 的 准确 性 ,选择 效 末 更 优 的 算法 
部 关上 线 。 
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图 2-7 多 算法 尝试 示例 
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(3) 多 视角 分 析 。 多 视角 分 析 是 指 当 确定 了 特定 业务 场景 下 的 算法 之 后 ， 除 了 考虑 算 
法 的 效 末 以 外 ， 还 要 从 其 他 维度 考察 复读。 例如， 天 心算 法 的 鲁 棒 性 ， 清 棒 性 意味 看 即使 
预测 集 数 据 的 大 小 和 分 布 有 一 些 变 化 ， 这 个 算法 也 要 有 比较 稳定 的 效 末 。 帮 外， 如 下 这 个 
算法 需要 周期 性 地 调度 使 用 ， 则 还 需要 关心 算法 的 复杂 度 以 及 资源 请 耗 量 。 了 最 后 ， 自 法 的 
调 参 和 优化 成 本 也 需要 考虑 进去 ,如 采 一 个 算法 再 要 不 断 地 调整 参数 才能 你 持 比 较 好 的 效 
末 ， 那 么 要 考虑 对 算法 使 用 者 来 寺 ， 这 种 运 维 成 本 是 合 可 以 接受 。 

以 上 束 是 笔者 总 结 的 在 算法 选择 方面 可 能 用 到 的 几 条 原则 , 对 于 一 个 业务 场景 下 的 算 
法 选择 问题 , 可 以 通过 上 文 介绍 的 明 硝 算法 泄 轩 、 多 算法 答 试 及 多 视角 分 析 3 点 原则 出 发 ， 
去 寻找 最 适合 目 身 业务 的 算法 。 
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本 章 介 绍 了 数据 挖掘 的 第 一 个 阶段 ， 也 融 定 场景 解析 。 其 实 场景 解析 惑 是 一 个 对 业 
务 场景 反思 的 过 程 ， 通 过 对 业务 场景 进行 抽象 ， 将 一 些 业 务 中 的 逻辑 抽象 成 数学 公式 可 
以 表达 的 形式 ， 人 然后 再 通过 这 些 形式 去 选择 对 应 的 算法 。 最 后 在 准备 阶段 ， 除 了 确定 算 
法 以 外 ,我们 还 需要 对 数据 的 质量 进行 一 个 探查 ， 可 以 为 下 一 步 的 分 析 提 前 又 露 一 些 可 
能 出 现 的 问题 。 场 景 解 析 是 数据 挖掘 的 第 1 步 ， 这 一 块 主要 考验 的 是 数据 挖掘 工程 师 对 
业务 的 理解 。 
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数据 预 处 理 是 数据 挖 据 流 程 的 第 2 步 ， 如 采 把 数据 挖掘 看 成 做 一 道 某 的 话 ， 数 据 预 处 
理 惑 是 选择 和 清洗 蔬 这 的 过 程 ， 这 一 步 没 做 好 会 影响 可 个 麻 品 的 口感 。 数 据 预 处 理 的 目的 
就 是 把 整个 数据 集 调整 为 对 于 算法 干扰 最 小 的 结构 ， 以 便 杏 高 最 终 算 法 的 训练 效 有 来。 本章 
主要 进 述 采样 、 去 噪 、 归 一 化 和 数据 过 着 。 
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取 少 部 分 样本 来 训练 或 者 验证 ， 这 样 不 仅 会 节约 计算 资源 ， 在 特定 条 件 下 也 会 提升 实验 效 采 。 














3.1.1 随机 采样 


随机 采样 (Random Sampling) 是 所 有 末 样 中 最 弟 用 的 一 种 ， 也 是 最 容易 实现 的 采样 
方法 。 具体 的 实现 形式 是 从 被 采样 数据 集中 随机 地 抽取 特定 数量 的 数据 ， 需 要 指定 采样 的 
个 数 。 随 机 采样 分 为 有 放 回 采样 和 无 放 回采 样 两 种 。 

(1) 举例 说 明 。 这 两 种 采样 方法 有 什么 区 别 呢 ?” 例 如， 在 1 个 箱子 里 放 了 100 个 球 ， 
我 们 需要 从 中 拿 出 10 个 ， 然 后 就 闭 着 眼睛 随便 取 1 个 出 来 ， 取 出 来 之 后 记录 一 下 取 了 哪 
个 球 ， 然 后 把 取出 来 的 球 放 回 去 ， 册 重新 取 ， 如 此 累计 10 次 ， 这 就 是 有 放 回 采样 。 而 无 
放 回 采样 就 是 直接 随机 取 10 个 出 来 ， 并且 不 再 放 回 。 


(2) 示例 代码 。 随 机 采样 的 Python2.7 示例 代码 如 下 ， 其 中 : 



























































e dataMat 是 数据 集 ; 


3.1 采样 


e number 是 采样 数 ; 
e RandomSampling 是 无 放 回 采样 ; 
e RepetitionRandomSampling 是 放 回 采样 。 


import random 


def RandomSampling (dataMat,number): 


try: 
slice = random.sample (dataMat, number) 
return slice 

except: 


print 'sample larger than population' 


def RepetitionRandomSampling (dataMat, number): 
sample=[] 
for i in range (number): 


sample.append(dataMat[random.randint (0,len(dataMat)-1)]) 


data.txt 


0 
1 
2 
3, 
4 
5 
6, 
7 
8 


return sample 


ww = -~ 


这 里 的 代码 只 是 一 个 示例 ， 随 机 行为 的 实现 采用 了 Python 
目 带 的 random 函数 来 执行 。 


(3) 效果 展示 。 输 入 分 为 两 个 字段 ， 按 照 从 1~ 30 排列 ， 如 
Ky 3-1 所 示 。 
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e 无 放 回 的 采样 结果 RandomSampling ( dataMat,7 )。 因 为 是 
无 放 回 式 采 样 ， 所 以 采样 数据 不 会 出 现 重复 的 样本 数据 ， 3,18 
结果 如 图 3-2 所 示 。 3-1 部 分 输入 数据 
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图 3-2 无 放 回 式 采 样 结 





e 有 放 回 的 采样 结果 RandomSampling ( dataMat,10 )， 结 果 如 图 3-3 所 示 。 
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3-3 ”有 放 回 式 采样 结 


因为 是 有 帮 回 的 采样 ， 所 以 可 能 会 出 现 重 复 的 样本 。 





3.1.2 系统 采样 


系统 采样 (Systematic Sampling ) 在 一 般 情 况 下 是 无 放 回 式 抽 样 。 系 统 和 采样 叉 称 为 等 距 
TRIE, 即 和 将 总 体 的 观 穴 单 位 按 某 一 顺序 号 分 成 半 个 部 分 ， 册 从 第 一 部 分 随机 抽取 第 天 号 
观 奉 单位 ， 依 次 用 相等 间距 ， 从 每 一 部 分 中 各 抽取 一 个 观察 单位 来 组 成 桩 本 。 系 统 采 样 的 
使 用 场景 主要 是 针对 按照 一 定 关系 排列 好 的 数据 。 


C1) 举例 说 明 。 例 如 我 们 想 凋 查 一 个 年 级 每 个 班级 学 生 的 精神 面 驶 ， 但 时 间 有 限 ， 只 
能 抽样 几 名 同学 来 做 调查 。 于 是 可 以 选取 每 个 班 的 进门 徘 墙 位 置 的 第 1 名 同学 来 做 调研 ， 
iE MAREE oso FALE TBR RE, ARE IG BS TSR BET ot 
类 中 的 样本 集 。 

(2) 示例 代码 。 系 统 采样 的 Python 示例 代码 如 下 ， 其 中 : 


e dataMat 是 数据 集 ; 


















































e number 是 采样 数 ; 
e SystematicSampling 是 系统 采样 。 


import random 


def SystematicSampling (dataMat,number): 


length-len (dataMat) 
k-length/number 
sample=[] 
i=0 
if k>0 1 
while len (sample) !=number: 


sample.append (dataMat [0+i*k]) 
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it-1 
return sample 
else : 


return RandomSampling (dataMat,number) 
(3) 效 示 展示。 
e. 输入 数据 分 为 两 个 字段 ,按照 从 1~ 30 排 列 , 如 图 3-4 所 示 。 
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0, 
1, 
2, 
3, 
4, 
5, 
6, 
7, 
8, 
9, 


。 系统 采样 的 结果 SystematicSampling ( dataMat,10 )， 如 图 3-5 
所 示 。 


因为 是 系统 采样 , 结 末 按照 相同 的 步 长 进行 数据 采样 。 系 统 采 
样 在 实际 的 应 用 中 并 个 普遍， 因为 系统 采样 对 于 样本 的 限定 过 大 ， 
在 实际 的 应 用 场景 中 ， 针 对 不 同 层 级 的 采样 需求 往往 通过 分 层 和 采样 来 实现 。 











图 3-4 部 分 输入 数据 
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图 3-5 系统 采样 结 


3.1.3 分 层 和 采样 


分 层 采 杆 ( Stratified Sampling ) 征 匈 将 数据 分 成 奋 干 个 类 别 ， 冉 从 每 一 层 内 随机 抽取 
一 定数 量 的 观察 样本 ， 然 后 将 这 些 抽取 出 及 的 样本 组 合 起 来 。 分 层 采 样 前 和 被 用 于 在 生成 
训练 样本 的 场景 中 。 因 为 在 监督 学 习 中 ,， 通 首 情 况 下 正 负 样本 的 比例 是 不 可 控 的 ， 当 正 负 
样本 的 比例 过 大 或 者 过 小 的 时 候 ， 对 于 训练 结 来 都 是 有 影响 的 ， 所 以 往往 我 们 需要 用 分 层 
采样 来 控制 训练 杆 本 的 正人 负 样 本 比例 。 


C1) 举例 说 明 。 例 如 你 想 比 较 3 冢 饭店 中 哪 一 家 的 末 品 于 好 吃 ， 可 以 分 别 去 这 3 KR 
店 ， 然 后 随机 点 5 iow (at) LIES AVA AE), ODETTE RPI EVA. WIRE 
系统 采样 的 证 ， 需 要 有 一 个 约定 ， 如 需要 去 3 家 饭店 都 点 玉 蛙 上 的 前 5 ERM. 

( 2) 示例 代码 。 假设 我 们 有 有 3 层 分 类 的 数据 , 分 别 和 存储 在 dataMatl, dataMat2 和 dataMat3 
这 3 个 数据 空间 中 ， 我 们 的 分 层 采样 的 比例 为 1: 1 : 1， 通 过 对 于 每 一 层 进 行 无 放 回 的 随 
机 采样 ， 然 后 合并 采样 结 末 就 是 最 终 害 要 的 结 末 集 。 
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分 层 采 样 的 Python 示例 代码 ， 其 中 : 

e dataMatl, dataMat2 和 dataMat3 是 3 组 数据 集 ; 
e number 是 采样 效 ; 

e StratifiedSampling 是 系统 采样 。 


import random 


def StratifiedSampling (dataMatl,dataMat2,dataMat3,number): 


length-len (dataMat) 

sample=[] 

num=number/3 

sample.append (RandomSampling (dataMatl,num) ) 


sample.append (RandomSampling (dataMat2,num) ) 





sample.append (RandomSampling (dataMat3,num) ) 


return sample 

(3) BUREN o 

。 输入 数据 分 为 两 个 字段 , 按照 从 1~ 30 排列, 如 图 3-6 所 示 。 
第 1 个 字段 表示 数据 数值 。 第 2 个 字段 表示 层次 的 序号 ,本 
样 例 一 共 分 成 3 E. 3-6 ”部 分 输入 数据 

















e 分 层 采 样 的 结果 StratifiedSampling(dataMatl,dataMat2,dataMat3,9)， 如 图 3-7 所 示 。 





iis? ‘Or 1, e Li 1 
[Finished in 0.1s] 





3-7 ARKEA 





分 层 采 伞 从 每 一 个 层级 中 随机 抽取 出 特定 的 数据 ， 每 个 层级 抽取 的 比例 是 可 以 目 定 义 的 。 


3.2 归 一 化 








归 一 化 是 指 一 种 简化 计算 的 方式 , 将 数据 经 过 处 理 之 后 限定 到 一 定 的 范围 之 内 , 一 般 
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都 会 将 数据 限定 在 [0,1]。 数 据 归 一 化 可 以 加 快 算法 的 收敛 速度 ， 而 且 在 后 续 的 数据 处 理 上 
也 会 比较 方便 。 另 外 ， 归 一 化 算法 是 一 种 去 量 纲 的 行为 ， 天 于 量 纲 对 于 计算 的 影响 可 以 举 
这 样 一 个 例子 : 假设 一 组 数据 有 3 个 字段 , 都 表示 3 个 小 时 的 时 间 , 但 是 量 纲 分 别 是 小 时 、 
分 钟 和 秒 ( 见 表 3-1 )。 























表 3-1 3 个 小 时 
小 时 分 t 秒 
3 180 10800 


当时 间 增 加 1 个 小 时 之 后 ， 见 表 3-2。 


% 3-2 增加 1 个 小 时 
小 时 分 钟 秒 
4 240 14400 


对 比 以 上 两 个 表 可 以 看 出 ， 仪 从 数 子 的 角度 来 看 ，3 个 字段 的 数据 波动 的 幅度 为 秒 > 
分 钟 > 小 时 , 但 是 从 实际 意义 的 角度 出 发 ，3 个 字段 在 时 间 维 度 上 的 波动 古 相同 的 , 都 是 改 
屎 了 一 个 小 时 ,但 是 在 数字 大 小 的 波动 却 差 别 很 大 。 归 一 化 的 作用 就 古 去 除 这 桩 的 量 纲 给 
计算 市 来 的 影响 。 


归 一 化 的 具体 计算 方法 可 以 用 数学 公式 米 表 示 : y=(x-MinValue)/ (MaxValue- 
MinValue), 这 里 的 MaxValue 和 MinValue 分 别 是 针对 和 矩阵 的 每 一 个 字段 的 最 大 值 和 最 小 值 ， 
x 是 字段 中 的 值 ，y 为 最 终归 一 化 结果 。 























(1) 示例 代码 。Python 示例 代码 如 下 ， 其 中 : 
e. width KAHK Y RAE ; 


e AutoNorm 国 数 对 息 阵 执行 归 一 化 。 





from future import division 


def width(lst): 
i=0 
for j in lst[0]: 
i=i+1 


retürn i 
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def AutoNorm (mat): 
n-len (mat) 
m- width (mat) 
MinNum=[9999999999] *m 
MaxNum = [0]*m 
for i in mat: 
for j in range (0,m): 
if i[j]>MaxNum[j]: 


MaxNum[j]21i[j] 


for p in mat: 
for q in range (0,m): 
if p[q]<=MinNum[q]: 


MinNum[q]=p[q] 


section=list (map (lambda x: x[0]-x[1], zip(MaxNum, MinNum) ) ) 
print section 


NormMat-[] 


for dk an mat: 


distance-list(map(lambda x: x[0]-x[1], zip(k, MinNum))) 
value-list(map(lambda x: x[0]/x[1], zip(distance,section))) 
NormMat.append(value) 


return NormMat 

















(2) 效果 展示 。 输 入 数据 ( 见 图 3-8) 是 一 组 量 纲 各 不 相同 的 数据 ( 数据 只 显示 本 一 
部 分 )， 如 age FRIEDE "7", cho 字段 的 里 位 古 “ 坚 升 ”。 通 过 归 一 化 算法 之 后 的 数 
据 呈 现 如 图 3-9 所 示 ( 部 分 显示 )。 











在 执行 归 一 化 的 算法 时 有 一 个 地 方 需 要 注意 ， 因 为 公式 y=(x-MinValue)/(MaxValue- 
MinValue) 的 分 母 是 MaxValue-MinValue， 如 采 某 一 个 字段 的 最 大 值 和 最 小 值 是 相同 的 ,会 
出 现 分 母 为 零 的 情况 。 所 以 对 于 字段 数据 全 部 相同 的 情况 要 加 以 判断 ， 通 靖 来 讲 如 果 当 前 
字段 全 部 相等 旦 为 非 零 数 值 ， 束 转 换 为 1 来 处 理 。 如 果 当 前 字段 全 部 数值 都 是 0， 那 融 直 
接 保留 Oc 
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. 04811320... .. 0.603053... 0.370967... 
. 0.6226415... .. 0.282442... 0.241935... 
. 0.2452830... .. 0.442748... 0.419354... 
0.3396226... .. 0.885496... 0.564516... 
0.3396226... .. 0.770992... 0.225806... 
0.2452830... 251... 0.816793... | 0.129032... 


0.4339622... .. 0.679389... 0.580645... 0.6666666666666666 


. 0.2452830... .. | 0.702290... | 0.096774... | O 


= | OINI OI OI ait ni a! O 





. 0.3396226... .. 0.580152... 0.225806...  0.3333333333333333 


图 3-8 输入 数据 R 3-9 ” 归 一 化 之 后 的 数据 


3.3 ARRIRA 








效 据 控 据 领域 有 很 多 专 有 名 词 ,“ 去 品 ” 台 是 其 中 的 一 个 。 去 噪 在 一 般 情 况 下 十指 去 
除数 据 集中 有 干扰 的 数据 (对 场景 描述 不 人 准确 的 数据 )。 说 到 噪声 数据 ,到 底 它 是 怎么 产 
生 的 呢 ?” 这 里 有 一 个 实际 例子 来 说 明 : 我 们 的 手机 信和 号 都 是 来 目 于 基站 发 射 的 电磁 让， 
有 的 地 方 信号 比较 强 ， 有 的 地 万 束 会 比较 弱 。 运 营 商 的 工程 师 们 会 负 员 统计 不 同 区 域 的 
fe SSSR VET PAZ AY, REE TEN Ss TE eR Min Sa E 
EEE, PUR ESO, fa SAMS BRR DO aS EE, AER 
Zu. BERERE EH A Ee ASE, FRE RLS fei S RAE 
造成 一 定 影响 ， 生 成 一 些 噪声 数据 。 当 然 ， 产 生 噪 声 的 原因 还 有 很 多 ， 这 里 只 是 举 了 一 
MELEE AI BF o 


RERA eT T RIZR TT ZEE? AIR BE, RITE, Ae 
ARRP ARN, SURGERIES AACR SDE, RISE ATH SR HACER 
K, TET VEHIT HE RA A EE a RA A Fo 


Bi IRL TA T PERAE AIR AARE AS PA Une 2 VIAE, 接 下 来 会 重点 介绍 
AARRETTA. AES tos, FSA AIA, SETAA TEAST 
布 3e RM TERS ATTY ANT, AEXESRBEDUSERUBCRATTBR)— Fh, ASE. AGREE 
Z, DHA CBU EAS TA (IMA 3-10 )， 如 能 力 的 高 低 、 学 生成 绩 的 好 坏 
等 都 属于 正 态 分布 ， 我 们 可 以 把 数据 集 的 质量 分 布 理解 成 一 个 正 态 分 布 。 它 会 随 销 随机 变 
量 的 平均 数 、 标 准 差 的 大 小 与 单位 不 同 而 有 不 同 的 分 布 形态 。 正 态 分 布 可 以 表示 成 一 种 概 
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f(x) = 








l o| CA 
mew 2607 | 


其 中 , 5 可 以 表示 成 数据 集 的 方差 , 4 代表 数据 嘛 的 均值 , x 代表 数据 集 的 数据 。 相 对 于 正 
单数 据 ， 哈 声 数 据 可 以 理解 为 小 概率 数据 。 


Y. 
o 

















0.0 





R 3-10 正 态 分 布 概率 分 布 
正 态 分 布 具 备 这 样 的 特点 : xE (4-30, u+30) 以 外 的 概率 小 于 干 分 之 三 。 根 据 这 











种 特点 ， 我 们 可 以 通过 计算 数据 集 的 万 差 ， 把 3 倍 方差 之 外 的 点 设想 为 噪声 数据 来 排除 ， 
ELE BS AUI eT BE 





C1) 示例 代码 。 去 噪 的 Python 示例 代码 如 下 ， 其 中 : 
e GetAverage 函数 返回 均值 ; 

。 width PAZIGAXJDOBEERS SERE s 

e. GetVar 国 数 获 取 方 差 ; 

e DenoisMat KAHT ARR, 


from future import division 


def GetAverage (mat): 


n-len (mat) 

m- width (mat) 

num = [0]*m 

for j in range(0,m): 


for i in mat: 
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num[j]=num[j]+ilj] 
num[j]=num[j]/n 


return num 


def width(lst): 
i=0 
for j in lst[0]: 
i-141 


return i 


def GetVar(average,mat): 
ListMat=[] 
for i in mat: 


ListMat.append (list (map (lambda x: x[0]-x[1], zip (average, 1)))) 


n=len (ListMat) 
m= width(ListMat) 
num = [0]*m 
for j in range (0,m): 
for i in ListMat: 
num[j]=num[j]+ (i[j]*i[jl) 
num[j]=num[j]/n 


return num 


def DenoisMat (mat): 
average=GetAverage (mat) 
variance-GetVar (average, mat) 


section=list (map (lambda x: x[0]+x[1], zip (average, variance))) 


n=len (mat) 
m= width (mat) 
num = [0]*m 
denoisMat=[] 
for i in mat: 
for j in range (0,m): 


if i[j]>section[jJ]: 
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i[j]*section[Jj] 
denoisMat.append (i) 


return denoisMat 


(2) SERIE 3-11 所 示 。 


1421077 4169. lR E 





3-11 去 噪 的 结 














通过 正 态 分 布 去 除 3 倍 方差 的 方法 可 以 去 除数 据 集中 的 噪声 数据 ， 图 3-11 中 的 最 后 这 
条 偏差 值 较 大 的 数据 就 会 被 过 庆 挥 。 





3.4 Ss 


























数据 挖掘 用 到 的 数据 来 产 于 用 户 行 为 日 志 或 是 日 前 记 录 等 , TERIA n] AUR 
数据 进行 训练 。 通 前 对 于 同一 份 数据 , 如 条 想 做 不 同 目的 的 挖掘, 需要 做 不 同方 式 的 处 理 ， 
数据 过 滋 往 往 是 数据 前 期 处 理 的 重要 一 环 。 例 如 我 们 有 一 组 数据 ， 里 面 有 一 个 字段 对 于 结 
琳 没 有 任何 的 意义 (里 然 理论 上 几 是 数据 融会 有 意义 ,但 古人 攻 些 时 候 可 能 对 于 单个 字段 的 
量化 工作 很 难 实现 )， 见 表 3-3。 















































表 3-3 用 户 数 据 
EE ET 用 户 购买 次 数 EPE 
BAK | 
Ex — | na | o 2 | — 0 | a 
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对 于 表 3-3 AIA — AA Bia, AOS SE ce ROSE PO BEA TAG A E 
等 数学 运算 的 , Teo Ris Boe SUA. BO PE FAR” ESE TTA, 
EER AEM AY (WME 4 草 )， 但 是 对 于 昵称 这 一 类 数据 在 处 
理 上 还 是 有 一 定 难 度 ， 而 且 对 于 这 个 购物 场景 的 影响 并 不 大 , 所以 往往 需要 过 着 择 这 样 的 
字段 。 


用户 ID” 这 样 的 字段 ， 虽 然 已 经 是 数值 型 的 ， 狐 似 可 以 进行 算法 直接 处 理 ， 但 是 这 
种 数据 的 本 质 与 昵称 类 似 ， 只 表示 对 于 某 种 名 称 或 者 文本 的 唯一 标识 ,并 不 具备 描述 行为 
特性 的 含义 ， 所 以 也 是 需要 过 着 择 的 。 在 数据 过 涯 的 过 程 中 ， 除 了 需要 对 于 霖 至 字段 进行 
去 除 ， 很 多 时 候 还 需要 对 于 一 些 数值 型 特征 进行 过 着 ,这 样 的 过 着 处 理 往 往 需要 依靠 SQL 
语句 来 实现 ， 如 表 3-3 中 数据 ， 假 如 只 需要 选择 性 别 是 尹 性 的 用 户 数据 市 入 训练 ， 束 可 以 
通过 SQL 语句 的 where 功能 实现 。 






















































































3.5 本章 小 结 

















本 瘟 介 绍 了 数据 预 处 理 的 一 些 内 容 , 我 们 这 里 只 是 选取 了 数据 预 处 理 中 比较 前 用 的 几 
种 方法 : 采样 、 归 一 化 、 去 喧 和 过 滤 。 其 实在 实际 操作 中 还 有 许多 其 他 手段 ， 数 据 预 处 理 
作为 机 带 学 习 整 个 流程 中 一 道 非常 重要 的 工序 , 往往 需要 操作 者 根据 目 身 的 场景 或 者 古 数 
据 符 点 做 特定 的 一 些 处 理 方式 , 可 能 是 一 坚 简单 的 映射 或 者 是 非 浓 复杂 的 SQL 规则 。 在 效 
据 预 处 理 阶段 其 实 目的 很 简单 : 把 数据 集 尽 量 优化 成 对 于 算法 干扰 最 小 的 状态 ， 尽 可 能 地 
排除 数据 形式 对 于 模型 训练 的 影响 。 
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第 3 对 介绍 了 数据 预 处 理 ， 主 要 是 一 些 数 据 的 ETL 一 一 数据 的 抽取 ( Extract )、 清 洗 
(Cleaning )、 转 换 (Transform )、 装 载 (Load) 工作 。 这 一 章 将 真正 地 进入 数据 挖掘 流程 
比较 核心 的 部 分 ， 之 前 也 已 经 介绍 过 特征 工程 的 工作 将 直接 影响 整个 实验 的 质量 。 特 征 工 
程 大 概 可 以 从 几 个 方面 来 看 ， 分 别 是 特征 抽象 、 特 征 重 要 性 评估 、 特 征 衍 生 和 特征 降 维 几 
个 方面 ， 本 章 将 逐一 介绍 。 



































4.1 ”特征 抽象 

















特征 拙 角 是 指 将 产 数 据 抽 角 成 算法 可 以 理解 的 数据 。 这 个 概念 可 能 听 起 来 比较 难以 理 
解 ， 我 们 举 一 些 例子 来 时 行 说 明 。 青 先 思 考 一 下 什么 杆 的 数据 是 算法 可 以 理解 的 。 目 前 的 
机 页 学 习 算法 主要 是 对 一 些 数 据 进 行 年 阵 运算 或 者 概 窑 运算 来 得 到 结论 , TET AA 
入 人 参 通 前 来 讲 应 该 是 一 组 可 以 表达 数据 某 类 特性 的 数字 ， 基 于 这 个 理论 , SUISSE 
应 该 见 表 4-1， 所 有 属性 都 通过 数字 来 表示。 





















































表 4-1 理想 数据 
Pe A 用 户 购买 次 数 ETE 
EKA | 
mx | o ma | 2 | œo | 0 


但 是 实际 上 ， 在 真实 的 业务 场景 下 ， 做 数据 采 索 的 跟 做 分 析 的 往往 是 不 同 的 人 , 我们 
拿 到 于 的 数据 很 有 可 能 是 这 样 的 ， 见 表 4-2， 是 一 串 文 本 。 

















4.1 特征 抽象 


表 4-2 实际 数据 
用 户 昵称 用 户 购买 次 数 EPE 
XA ETE 


EIS Me ODE 23 TUA Dd P SORA ALS, SURE] FHAE SEE BOR ETT A PT 
ME? 如 何 从 复杂 的 数据 中 挑选 出 特征 ? aN S ACA DET THR o 抽象 的 过 程 没 有 现 
成 的 公 坏 或 者 是 工具 , 往往 要 根据 用 户 的 主观 判断 来 实现 。 特征 抽象 需要 具备 两 方面 能 
一 方面 是 需要 进行 大 量 的 相关 工作 来 积累 经 验 , 为 一 方面 需要 对 特征 抽象 的 数据 的 业务 场 
景 足 够 了 解 。 下 面 来 具体 实践 一 下 ， 看 看 如 何 从 看 似 个 可 能 量化 的 数据 中 抽象 出 特征 。 


C1) 时 间 戳 。 时 间 稚 数据 是 数据 挖掘 过 程 中 最 稼 见 的 数据 种 类 。 因 为 通 稼 采集 到 的 数 
据 往 往来 自 于 系统 日 志 ， 这 些 日 志 最 鲜明 的 特点 就 是 各 有 时 间 枚 字段 。 时间 序 列 是 对 结果 
影响 很 大 的 一 部 分 特征 ,假设 有 这 样 一 个 场景 ， 通 过 一 份 购物 网 站 用 户 行为 数据 ,我们 想 
预测 一 名 用 户 下 一 周 的 购买 行为 ,是 该 选择 这 名 用 户 去 年 的 购物 数据 来 训练 ， 还 是 选择 这 
名 用 户 今年 的 数据 来 训练 ? 答案 肯定 是 后 者 。 因 为 对 购物 这 种 强 时 效 性 的 行为 来 讲 ， 时 间 
无 疑 是 最 重要 的 特征 。 但 是 时 间 数 据 要 怎样 处 理 ? 下 面 将 讲解 如 何 抽象 这 样 的 数据 。 假 设 
我 们 有 下 面 这 一 份 数 据 集 ， 见 表 4-3。 


表 4-3 HER 



































































































































小 本 2015-9-12 l 
小 王 2016-9-12 l 





HHA, Time 字段 表示 的 是 时 间 稚 ,通常 采集 到 的 时 间 都 是 “年 -月 -日 ”这 样 的 格式 ， 
时 然 这 样 的 时 间 是 由 数字 表示 的 ， 但 是 因为 这 种 年 、 月 、 日 的 计算 并 不 符合 十 进 制 的 计算 
原理 ,很 难 对 这 样 结 构 的 数据 做 加 减 乘除 的 处 理 ， 所 以 我 们 要 做 一 定 的 处 理 之 后 才能 供 算 
法 使 用 。 具 体 的 操作 方法 可 以 选 定 一 天 作为 基准 ,然后 取 具 体 日 期 字段 中 的 数据 与 这 一 天 
的 差 值 。 例如 取 2016-9-13 号 为 基准 , 表 4-3 中 的 数据 2015-9-12 可 以 抽象 成 表 4-4 中 的 “365”， 
表示 两 个 日 期 的 差 值 。 


























表 4-4 处 理 后 的 数据 集 


小 李 366 l 
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(2) 二 值 类 问题 。 例 如 有 一 组 数据 见 表 4-5。 
表 4-5 数据 集 
AR 名 性 Bl 是 否 购 买 
Ne BK 
we xi 
CDS MAJEE AA, (ESE AAP EVRA LEPOREM. AA "PERI" 
RA BAP, “WSR” IERA XXMA LAH. xx E Bae BUB, OH 



































LOT AIEO, IATL 0 RH 1, ARE EI ait HT EAE X DLR 4-6. 
424-6 处理 后 的 数据 集 


用 P 名 
小 李 
小 王 
至 于 对 单个 字段 哪个 是 1、 哪 个 0， 其 实 不 用 纠结 ， 只 要 可 以 通过 两 个 数值 表示 字 
段 的 具体 合 义 下 可 以 了 。 
(3) 多 值 有 订 类 问题 。 前 面 介绍 了 二 值 类 的 文本 数据 抽象 的 万 法 , 但 是 当 字 段 的 数据 出 
现 多 值 的 时 候 ， 问 题 束 变 得 复杂 了 起 来 。 多 值 类 的 字段 数据 分 成 两 种 ， 一 种 是 有 序 的 ,一 种 
是 无 序 的 。 有 有 序数 据 足 指数 据 可 以 按照 程度 来 分 琶 ， 俯 下 面 这 份 数据 ( 见 表 4-7 ) 为 例 。 


表 4-7 有 序数 据 






































s | 
小 王 | l 
IT 
小 广 经 度 疼痛 0 








这 是 一 份 用 户 体检 数据 ，Type 表示 用 户 的 疼痛 度 ，Sick 表示 用 户 是 否 患 病 。 这 里 需要 
对 Type 字段 进行 特征 的 抽象 化 ， 我 们 看 到 这 个 字段 是 由 “重度 疼痛 ”“ 中 度 疼 痛 ”“ 轻 度 
Pom” 3 个 字符 型 数值 组 成 ， 因 此 可 以 把 这 3 个 值 表示 成 0、1、2。 这 里 就 涉及 一 个 问题 ， 
哪个 值 对 应 0, 哪个 对 应 2 NE? 如 有 果 这 些 文本 值 表 示 的 意义 是 可 以 按照 严重 程度 排序 的 话 ， 
我 们 可 以 把 字符 对 象 按照 从 轻 到 重 或 者 从 重 到 轻 两 种 方式 与 数值 一 一 对 应 。 在 这 个 实例 
中 ,“ 重 上 度 疼 痛 ”“ 中 度 疼痛 ”“ 轻 度 疼痛 ”可 以 分 别 对 应 到 0、1、2 或 者 2、1、0。 FEIT 
情况 下 ， 这 两 个 顺序 都 是 可 以 的 ， 只 要 是 按照 病痛 的 程度 来 排序 即 可 。 
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(4) 多 值 无 序 类 问题 〈 信 息 交 割 ) 多 值 无 序 类 的 特征 抽象 是 最 难 做 的 ， 有 时 候 只 能 
BON Sats Gun Ca Ge Seta ie ton, FSR ta BAI) ) 进行 
AETERZBJ EBL BORA One-hot 4853855 1E , TAAR AA. KEA 
数据 ( 见 表 4-8 ) 表示 的 是 一 些 人 的 职业 以 及 收入 状况 。 


表 4-8 职业 及 收入 状况 数据 
E a 
A si 
Am 2 
y] 


INIT Xx 23636 






































XE 


~ 











在 这 份 数据 中 ， 如 末 想 对 Occupation 字段 进行 特征 抽 家 ,利用 上 面 齐 到 的 “多 值 有 序 
类 ” 抽 胃 的 方法 似乎 束 走 不 通 了 ， 因 为 我 们 没 办 法 分 辩 “老师 ”“ 厨 师 ”“ 司 机 ”和 “运动 
员 ” 这 坚 职 业 是 否 存在 程度 的 融 低 。 这 个 时 候 要 怎么 办 ? 如 末 在 没有 喝 好 办 法 的 情况 下 可 
能 要 牺牲 一 下 这 个 字段 的 信息 烂 ， 原 和 完 这 个 字 鼎 信 息 描 述 的 是 4 种 可 能 ， 分别 是 “老师 ” 
“厨师 ”“ 司 机 ”和 “运动 员 ”， 现 在 可 能 要 变 为 2 种 可 能 。 如 何 把 4 种 可 能 性 浓缩 成 2 种 ， 
这 个 要 根据 具体 的 情况 来 制定 ， 如 采 这 份 数据 是 用 采 预 测 教育 行业 相关 情况 的 话 ， 屠 可 以 
将 “老师 ” 设 为 1,“ 厨 师 ”“ 司 机 ”“ 运 动员 ”全 都 设置 成 0。 这 样 这 个 特征 表示 的 意义 束 
XE: 职业 十 合十 老师 对 最 终 收 入 的 影响 。 

(5) 多 值 无 厅 类 问题 ( One-hot 2883 ) 前 面 所 到 了 在 特征 工程 中 对 无 序 类 的 数据 处 理 
是 一 个 难点 ,下 面 介绍 如 何 通过 One-hot 编码 方式 来 把 文本 无 订 的 字符 帅 数 据 转 换 成 效 值 。 
One-hot 网 但 方式 的 优点 是 保存 了 所 有 信息 的 信息 量 。 下 面 还 是 通过 一 个 例子 来 介绍 。 例 
如 我 们 有 一 组 数据 索 搞 述 的 是 运动 畦 ,有 3 个 特征 分 别 定 “品牌 ”“ 地 区 ”和 “颜色 ”。3 
个 特征 具体 包含 的 类 别 如 下 。 


i ha . [阿迪 达 期 ” «Wm yg" “李宁 ?] E 
^ HEX: Wa >= 
。 Bit. RE REN 


这 组 数据 描述 是 典型 的 无 序数 据 ， 因 为 很 难 把 “黄色 ”和 “ 蓝 色 ”按照 某 种 属性 数值 
化 ， 也 很 难 通过 数值 摘 述 “阿迪 达 斯 ”“ 耐 元” 和 “ 邓 宁 ”的 程度 。 如 采 我 们 拿 到 一 组 数 
Jae [p ves "rp Bsp 3 (87], 该 如 何 把 这 组 数据 数值 化 。One-hot 编码 的 原则 十 通过 唯一 数 
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值 标识 每 个 字符 数据 在 其 特征 列 中 的 位 章 属 性 来 实 现 特征 编 但 ,“ 耐 元 ”在 “品牌 ”这 个 
品种 中 处 于 中 则 人 位置， 我们 可 以 把 “ 耐 元 ” 编 但 为 [010]， 其 中 “1” 代 表 了 “ 耐 元 ”的 中 
间 位 置 ， 而 且 古 唯一 标识 。 同 理 我 们 可 以 把 “中 国 ” 标 识 为 [1,0]， 把 “ 落 色 ”标识 为 [0,1]。 
EA Jc dU FH B 2S d RS RER, [18 965" rp B5 V (6 "] BJ de 7X 4a B5 RO 
[0,1,0,1,0,0,1] ， 这 一 组 数据 虽然 很 黎 蓝 ， 但 是 可 以 市 到 算法 中 进行 计算 。 以 上 束 是 如 何 用 
One-hot 纲 但 解决 多 值 无 序 类 数据 的 特征 捉 取 问题 。 


(6) 文本 类 型 。 之 前 捉 到 的 一 至 特征 抽象 ， 其 实 都 是 建立 在 半 结 构 化 数据 的 基础 上 。 
半 结 构 化 数据 是 指 数据 已 经 存储 到 了 矩阵 结构 的 数据 库 中 ,但 是 实际 的 值 是 字符 类 型 的 。 
假设 我 们 的 数据 束 古 一 成 广 本， 那么 该 怎么 抽象 特征 呢 ?” 例 如 数据 是 “小 王 真 聪明 ”。 这 
种 特征 的 抽 线 有 很 多 方式 ， 我们 可 以 把 文本 先 分 词 ， 如 “小 干 / 丰 / 脱 明 ”， 然 后 可 以 按照 词 
语 出 现 的 位 廿 来 近 取 特征 ， 也 可 以 按照 每 个 词 的 词性 来 握 取 特征 。 如 来 是 由 多 个 文本 组 成 
的 集合 ， 还 可 以 根据 TF-IDF 值 来 捉 取 特征 。 当 然 ， 节 简单 的 特征 还 是 词 的 长 度 。 前 面 这 
句 话 在 特征 抽象 之 后 可 以 表示 成 见 表 4-9 的 形式 。 


表 4-9 特征 抽象 结果 
a LEE 
E | 
" MEN NENNEN NENNEN UEM 
LT a a NM 


(7) 图 像 或 语音 数据 。 这 里 再 简单 介绍 下 基于 语音 或 者 图 像 这 类 非 结构 化 数据 的 特征 
抽取 。 其 实 ， 目 前 在 数据 挖掘 领域 ， 对 非 结构 化 数据 的 处 理 还 处 于 很 基础 的 阶段 ， 对 图 像 
和 语音 的 特征 抽取 可 能 与 上 文 介绍 的 方法 不 同 。 思路 大 体 是 首先 将 图 像 或 者 语音 转化 成 矩 
阵 结构 。 以 图 像 为 例 ， 按 照 像素 点 切 制 的 话 ， 每 个 像素 点 可 以 表示 成 一 个 数值 ， 特 征 的 生 
成 可 以 通过 深度 学 习 的 自 编码 等 方法 来 实现 。 关 于 次 度 学 习 的 特征 提取 在 深度 学 习 章节 有 
讲 到 ， 也 可 以 参考 本 书 第 7 蔓 关 于 “Tensorflow” 的 介绍 。 


特征 抽象 其 实 有 很 多 形式 ， 这 一 小 上 只 是 针对 几 个 比较 典型 的 场景 对 特征 抽 胃 进行 
了 和 帘 单 的 介绍 ， 在 大 多 数 情 况 下 特征 抽象 需 要 数据 挖 据 工 程 师 根 据 实 际 的 数据 情况 及 分 
析 。 特 征 抽象 的 能 力 代 表 看 一 个 人 对 大 数据 的 认识 ， 只 有 将 更 多 精力 投入 到 数据 和 业务 
的 理解 中 ， 才 可 以 做 好 这 项 工作 。 所 以 笔者 认为 ， 数 据 的 据 并 不 只 是 数学 公开 的 推 寻 和 
数据 的 流转 ， 只 有 真正 地 理解 业务 ， 把 数据 和 业务 相 结合 起 来 才能 真正 地 欣 气 出 数据 的 
价值 。 
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4.2 ”特征 重要 性 评估 





4.1 B4T28 SUMTER, "RYE HS M XE RSUERU EB, RINE Ine Y ERES 
(IDM HERSIR EE, ARERI EEES NBAA RR R. PGBS 
门店 ， 它 有 一 份 数据 显示 的 十 不 同 球 式 衣 服 的 品 脾 、 闫 色 、 长 短 以 及 最 终 的 成 交 量 ， 如 末 可 
以 通过 特征 评估 判 晰 出 品牌 、 闫 色 和 长 得 3 个 特征 中 哪 种 对 成 交 量 的 影 啊 最 大 ， 束 可 以 作为 
卖家 的 进货 指导 ， 这 里 面 就 涉及 了 如 何 评判 特征 重要 性 的 问题 ， 如 末 我 们 能 对 特征 的 权重 有 
一 个 正确 的 评判 和 排序 ， 束 可 以 通过 特征 重要 性 排序 来 指 寻 一 些 降 维 处 理 ， 问 时 也 可 以 挖掘 
一 下 业务 场景 中 哪些 属性 是 比较 重要 的 ， 这 个 信息 对 接 下 来 的 模型 训练 效 末 调 优 很 有 帮助 。 


特征 评判 的 方法 有 很 多 ,在 本 市 笔者 将 介绍 两 种 万 法 ,一 种 是 利用 回归 模型 的 参数 来 
评判 ， 故 一 种 是 根据 信息 焕 。 


下 面 分 别 介绍 一 下 回归 模型 系数 判断 法 和 信息 焕 判断 法 。 


1， 回 归 模 型 系数 判断 法 ， 因 为 一 些 线性 模型 的 训练 结 采 是 一 个 数学 公式 ， 类 似 于 如 
下 这 样 的 式 了 于。 

























































































y-aixit A2X2+ A3X3+°°* 








HH, a, m, as 惑 是 我 们 模型 最 终 得 到 的 系数， 这 些 系数 是 通过 了 最 优化 的 一 些 数 学 于 段 
帮 代 计算 得 到 的 ,以 逻辑 回归 算法 为 侧 具体 算法 的 推导 可 以 参见 第 5 章 “ 远 辑 回 归 算 法 ”)， 
我 们 最 终 得 到 的 古 一 个 线性 的 公式 和 这 个 公式 中 每 个 项 式 的 系数 。 


下 面 通过 一 个 例子 说 明 如 何 通 过 丈 辑 回归 的 模 
型 系数 进行 特征 评估 ， 这 里 有 个 前 提 ， 如 采 想 通过 
逻辑 回归 的 模型 各 特征 参数 来 评估 特征 的 重要 性 ， 
震 要 数据 在 进行 模型 训练 之 前 进行 归 一 化 的 处 理 
( 归 一 化 可 以 去 除 量 纲 对 于 数据 的 彩 响 )， 帮 外 需要 
我 们 的 目标 下 是 二 值 类 型 的 ， 和 而 且 是 以 0 和 1 KER 
注 正 负 样 本 。 以 心脏 病 预 测 为 例 ， 整 个 案例 流程 如 
4-1 所 不 。 4-1 ”算法 流程 
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生成 的 网 辑 回归 模型 系数 见 表 4-10。 


Sex 
cp 
fbs 

restecg 

exang 

slop 
thal 
age 

trestbps 
chol 

thalach 


oldpeak 


nin E 
rp Æ 


X 4-10 


逻辑 回归 模型 系数 
1.71424210499712 
1.774394143375927 
—0.1075414216726791 
0.2764986129790553 
1.257890719746616 
0.7171076435203158 
1.326847983060802 
0.1623072055546696 
1.5804084957295 
2.786010616423301 
—3.032703 179673836 
3.568019026681083 
3.998805924046494 
—5.092621256162691 


A 4-11 中 是 逻辑 回归 每 个 特征 的 含义 。 





cp 
trestbps 
chol 
fb 


un 


restecg 
thalach 
exang 


oldpeak 


R 4-11 特征 含义 


TER] 
胸部 疼痛 类 型 
血压 
HE EUR 
空腹 血糖 
心电图 结果 
最 大 心跳 数 
X5 5] ls] ce i ERR 


is THOSE KI] ST depression 
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续 表 
F ERA a X 
Slop 心电图 ST segment 的 倾斜 度 
ca 透视 检查 看 到 的 血管 数 
thal 缺陷 种 类 
status EM UPS 








这 是 一 份 逻 辑 回 归 训 练 生成 的 结果 模型 和 对 应 每 个 特征 的 含义 , 描述 的 场景 是 通过 党 
规 的 体检 数据 来 预测 对 象 是 否 患 有 心脏 病 。 除了 “常量 ”以 外 , 每 个 特征 都 有 对 应 的 系数 ， 
我 们 可 以 通过 这 些 系 数 来 判断 特征 的 重要 性 。 在 逻辑 回归 中 ， 系 数 绝对 值 越 大 的 特征 对 结 
果 的 影响 越 大 。 从 上 面 的 案例 来 看 :oldpeak ( 最 大 心跳 数 )、ca ( 透视 检查 看 到 的 血管 数 ) 
两 个 特征 对 是 否 患 有 心脏 病 的 影响 最 大 。 同 时 ， 特 征 系数 的 正 负 符号 对 结果 也 是 有 影响 的 。 
假设 这 份 数据 的 目标 队列 〈 即 是 否 患 有 心脏 病 ) 1 表示 对 象 患 病 ，0 表示 不 患 病 。 那 么 以 
oldpeak 这 个 特征 为 例 ， 它 的 系数 是 3.568019026681083 ， 符 亏 是 正 号 ， 表 示 这 个 特征 与 趾 病 
正 相 关 ，oldpeak 数值 越 大 表示 患 病 的 可 能 性 越 大 。 有 具体 的 推导 公式 如 下 : 




































































y(0 或 1)= 


Ite “ 

















其 中 , y AORN ZGE RUA, x 古 杰 量 ， 征 需要 市 入 的 特征 值 ，4 是 特征 x 的 系数 。 以 特征 
oldpeak 为 例 : 如 末 它 的 系数 是 正 数 ， 对 应 的 x (最 大 心跳 数 ) 的 值 越 大 ，-ax BBY), y 
WRAT 1， 目 标 对 象 患 心 脏 病 的 概率 就 越 大 。 同 理 ， 我 们 可 以 推出 系数 古 负 与 的 情况 。 


以 上 束 古 根据 浆 辑 回归 算法 的 特点 ， 可 以 通过 模型 的 系数 推出 每 个 特征 的 重要 性 ， 这 一 
氮 在 实际 的 应 用 中 有 很 大 的 意义 ， 通 过 这 些 特征 系数 可 以 判断 每 个 特征 对 结 采 的 彩 啊 。 









































2 信息 燃 判 师 法 ,信息 燃 古 一 个 信息 量 抽 象 的 概念 ， 对 信息 量 的 研究 专门 有 一 门 学 
Tiu EE. FE 1948 年 ,信息论 的 蜡 依 否 农 所 出 了 “信息 烂 ” 的 概念 ， 真 正 地 把 信息 
这 样 一 个 抽象 的 东西 量化 。 我 们 先 来 看 下 信息 燃 的 具体 计算 方法 : 在 信 源 中 考虑 的 不 是 示 
一 单个 符号 发 生 的 不 确定 性 ， 而 是 要 考虑 这 个 信 源 所 有 可 能 发 生 情 况 的 平均 不 傅 定 性 。 右 
AISA n BEAT RE Ui, Us, Us, Ua, BERET EXT DAMES SS B79 Pi, Po, Ps, Pe, 
且 各 种 得 写 的 出 现 彼此 独立 。 TERE PA AE EE INE 84 7] FMS ie PE-log P; 的 统计 
































ISH E, BU H(U)-E[-log P]-- >>" Plog P . 
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3418 AAS PT ERRARE ES, PAD REA XZ ALS 4-12。 
#412 计算 数据 


喜好 颜色 特征 列 ) teal CB tpl) 
红色 5 
黄色 pa 
蓝 色 R 
红色 5 
黄色 女 








每 行 数 据 表 示 一 个 目标 对 象 ， 特 征 列 表示 的 是 对 象 喜 欢 的 颜色 ， 目 标 列 表示 的 是 对 象 
的 性 别 。 我 们 先 来 求 特征 列 的 信息 精 ， 特 征 列 一 共 3 种 颜色 ， 有 5 组 数据 。 其 中 红色 出 现 
的 概率 是 205， 黄 色 出 现 的 概率 是 2/5， 蓝 色 出 现 的 概率 是 1/5。 最 终 的 特 伍 列 信 息 焕 计算 


Zn 
7 2 2 l 
H(U)=- 2 X log B8 x X log s + X log 3) 


Bü EI ATH T ARIS LEUR, RTAMRA PEK, DU SPARK AZ 
FRAY AT REVERS , CHERERE, fe SURO, [Hie Tz QP iE FE TERMS 
EUR SE? 这 里 引出 一 个 新 的 名 词 叫 作 信 息 增 益 (Information Gain )。 在 信息 增益 中 ， 
衡量 标准 是 看 特征 能 够 为 分 类 系统 带 来 多 少 信息 ， 囊 来 的 信息 越 多 ， 则 该 特征 越 重 要 。 对 
一 个 特征 而 言 ， 系 统 有 它 和 没 它 时 的 信息 量 将 发 生变 化 ， 而 前 后 信息 量 的 差 直 接 是 这 个 特 
征 给 系统 市 来 的 信息 量 。 


对 表 4-12 的 这 组 数据 而 言 , 目标 列 减 去 特征 列 的 信息 增益 代表 着 这 个 特征 对 结 采 的 影 
W, RAHAAN: 






















































































GC BL OS) =H MEI) H(i) 
bk Asters E HERAN RAZE, ERRE HAR m 
历 每 个 特征 的 信息 增益 来 将 特征 排序 。 这 个 顺序 既 可 以 用 来 评判 特征 的 重要 性 ， 也 可 以 用 
来 在 决策 树 算法 中 排列 树 的 顺序 (参见 随机 森林 算法 )。 
以 上 分 别 介绍 了 通过 模型 系数 权重 和 信息 增益 两 种 方法 来 评估 特征 的 重要 性 。 两 种 方 
法 的 评估 角度 和 计算 方法 不 同 ， 实 际 的 用 法 需要 根据 具体 的 使 用 场景 来 确定 。 
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4.3 特征 衍生 














特征 衍生 是 指 利用 现 有 的 特征 进行 采种 组 合 ， 生 成 新 的 其 有 含义 的 特征 。 特 征 衍 生 其 
实 征 特征 工程 中 很 重要 的 一 环 ， 因 为 通 首 我 们 所 采集 到 数据 的 特征 维度 不 会 很 大 ， 而 且 直 
接 采 集 到 的 特征 并 不 会 完全 体现 出 这 份 数 据 的 全 部 信息 , 需要 通过 已 有 有 的 数据 组 合 来 发 现 
新 的 六 义 ， 新 生成 的 特征 对 目标 列 的 影响 大 小 可 以 通过 特征 重要 性 评估 方法 来 狭 得 。 


下 面 结合 一 个 例子 介绍 如 何 从 业务 的 视角 进行 特征 作 生 。 业 务 视角 是 指 通 过 数据 挖 据 
工程 师 对 数据 的 理解 和 业务 场景 的 认识 的 层面 来 进行 特征 人 往生 。 这 里 有 一 份 大 池 大 赛 开 派 
数据 集 ( 见 表 4-13 )， 这 份 数 据 表示 的 是 用 户 在 电 疝 六 台 上 的 购物 行为 (购物 行为 0 表示 
点 击 示 购买 ，1 表示 购买 )。 



























































表 4-13 用 户 购 物 行为 


K 4-13 中 只 采样 了 5 个 样本 ， 这 组 数据 一 共有 以 下 4 个 字段 。 
。 用 户 ID: 用 户 的 唯一 标识 。 

e 产品 ID: 电 商 平台 产品 的 唯一 标识 。 

。 购物 行为 : 0 表示 点 击 但 是 未 购买 ，!1 表示 购买 。 

。 日 期 : 行为 发 生 的 日 期 。 


通过 这 份 数据 (1~9 月 的 购物 数据 )， 需 要 解决 的 场景 是 预测 接 下 来 3 个 月 (10~12 
月 ) 用 户 会 购 天 哪些 六 品 。 这 是 一 个 典型 的 机 侣 学 习 算法 在 购物 推荐 场景 的 应 用 ， 如 未 我 
们 可 以 通过 过 往 数 据 成 功 预测 出 用 户 接 下 来 儿 个 月 的 购物 意向 , 束 可 以 通过 辣 这 些 用 户 推 
荐 相应 产品 来 提高 成 交 概 率 。 基 础 数据 只 有 4 个 字段 ,真正 可 以 用 来 作为 特征 的 只 有 后 两 
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个 CID 列 没 法 市 入 计算 )。 机 絮 学 习 算 法 的 特点 古 通过 蜗 维 的 特征 数据 来 挖 据 其 中 的 最 优 
模型 ， 所 以 我 们 需要 进行 一 定 的 特征 往生， 增加 相应 特征 量 ， 从 而 挖 据 于 有 价值 的 特征 来 
提高 算法 的 结果 惟 确 性 。 


首先 我 们 可 以 分 析出 ， 这 走 一 个 购物 行为 预测 ， 只 有 天 或 不 买 两 种 ， 所 以 是 一 个 二 分 
类 场景 。 其次， 购物 这 个 行为 包含 两 个 对 家 ( 购物 者 和 商品 ) 和 一 种 购买 天 系 ， 所 以 可 以 
从 这 两 个 对 象 和 购买 天 系 的 角度 分 别 去 思考 。 在 进行 特征 往生 的 过 程 中 ,我 们 可 以 分 别 从 
3 个 角度 去 分 析 : 购物 者 、 商 品 、 购 物 痢 和 商品 的 关系。 下 面 束 证 细 介 绍 一 下 如 何 从 这 3 
个 角度 进行 特征 衍生 。 


(1) 购物 者 。 购 物 者 是 购 闫 行为 的 发 起 者 ， 在 日 前 生 活 中 ， 我 们 几乎 每 天 都 要 进行 不 
癌 次 数 的 购物 行为 ， 每 个 独立 的 人 都 有 目 己 的 性 格 ， 都 有 目 己 的 行为 方式 。 在 购物 方面 ， 
可 能 有 的 人 很 喜欢 闫 东西 ， 有 的 人 不 辟 欢 买 东西 ， 有 的 人 喜欢 氮 击 各 种 商品 但 是 不 买 ， 有 
PAGS SE SSR, 这 些 行为 特点 都 可 以 通过 特征 丛生 来 量化 表示 并 且 市 入 算法 
BUH o 

首 抑 我 们 想 一 下 如 何 表示 一 个 人 十 否 是 购物 狂 呢 ? tect FLA iE se VER OUT A — 
共 买 了 多 少 商品 ， 对 这 份 案例 数据 ， 可 以 通过 统计 每 个 用 户 过 去 的 2~9 月 的 总 购买 量 ， 
这 里 不 单 指 过 一 玖 产品 ， 而 征 指 目标 用 户 对 所 有 产品 的 购买 量 ， 这 样 束 可 以 抽 家 出 一 个 特 
征 叫 历史 购买 量 。 数 据 残 可 以 变 成 表 4-14。 



















































































































































































表 4-14 增加 历史 购买 量 


RIP ID 历史 购买 购物 行为 历史 购买 
12028500 2999 | 0 | é6BHsH 234 


但 是 , LSC AAAS EE SK a Aes HJ BUT of Ae EXE T TEE BEBE] o (EIS A, 
M2 月 份 融 开始 网 购 ， 到 了 9 月 份 一 共 只 买 了 10 个 商品 ， 用 户 B 从 8 月 份 才刚 开始 学 会 
网 上 购物 ， 到 了 9 月 一 共 关 了 8 件 商 品 。 如 直通 过 购 头 量 这 样 的 数字 来 表示 用 户 的 购物 可 
好 度 ， 那 么 得 出 来 的 结论 是 A 的 购物 热情 比 B 大 ， 因 为 A 的 总 购物 量 更 大 。 但 是 我 们 进 
一 步 分 析 ， 实 际 上 B 对 购物 的 热情 要 大 于 A, ALA BAA SPSS ARTA TA 差不多 7 
个 月 的 商品 量 。 所 以 为 了 更 精确 地 表示 用 户 购 物 的 热情 ， 可 以 衍生 出 一 个 新 特征 叫 购 物 频 
率 ， 购 物 频 率 的 公式 如 下 : 


A4 
wl 





















































用 户 总 购买 量 


CU 用户 最 后 购买 时 间 - 用 户 第 一 次 购物 时 间 
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这 里 首先 需要 对 时 间 进 行 特 征 抽象 (FEN 4.1 节 特 征 抽象 部 分 ), 然后 通过 购物 频率 公 
式 求 出 用 户 的 购物 频率 ， 了 最 终结 朱 见 表 4-15, 





I 求 出 购物 频率 
RIP ID ”购物 行为 | 日 期 | 历史 购买 量 购物 频率 
在 历史 购买 量 和 购物 频率 确定 了 之 后 , 我 们 可 以 继续 对 这 两 个 特征 优化 ， 因 为 最 终 需 
要 预测 的 是 10~ 12 月 的 购物 行为 。 假 设 一 个 用 户 只 在 3~6 月 进行 了 购物 ， 后 来 换 写 了 ， 
或 者 因为 不 相信 网 购 退 出 了 ， 那 么 他 在 10-12 月 期 间 是 不 太 可 能 有 购物 行为 的 。 针 对 这 
种 情况 ,我 们 可 以 通过 添加 时 间 序 列 的 判断 来 强化 已 有 的 特征 ， 可 以 按照 每 3 个 月 计算 一 
次 历史 购买 量 和 购物 频率 来 进行 特征 人 往生 见 表 4-16。 









































表 4-16 添加 时 间 序 列 


nE NA a 
aro [moon] om ES JE AERE ES 


FLESH ERES FLA 他 的 维度 入 手 。 我 们 可 以 衍生 一 种 特征 来 区 分 这 样 两 种 
人群 ， 一 种 是 “ 光 看 不 买 " ， 还 有 一 种 是 “一 看 就 闫 " ， 把 这 个 特征 叫 作 “点 击 购买 率 ” ， 
通过 公式 可 以 这 样 表示 : 














用 户 购物 行为 为 0 的 次 数 


用 户 购 物 行 为 为 1 的 次 数 





数据 集 变 成 表 4-17。 


表 4-17 添加 点 击 购买 率 






| m ] 79 月 | 历史 购 7~9 A ny 点 击 购 




















当然 ， 对 用户 行为 的 刻画 还 可 以 从 更 细 的 方面 来 看 ， 其 实 可 以 把 “点 击 购买 率 ” 也 加 
入 时 间 序 列 的 判断 ， 因 为 有 时 候 人 的 购物 果敢 程度 也 是 随 着 季节 波动 的 。 


前 面 我 们 分 别 从 用 户 对 购物 的 热情 、 用 户 购物 的 频率 和 用 户 点 击 购买 率 3 个 方面 进行 
了 特征 衍生， 通过 加 入 时 间 序 列 的 考虑 ， 大 致 可 以 衍生 出 几 十 个 新 的 特征 ， 这 些 特 征 更 详 
细 地 刻画 了 购物 者 的 性 格 特点 。 下 面 笔者 将 介绍 如 何 通过 特征 衍生 来 刻画 商品 的 属性 。 
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(2) 商品 。 相 较 于 人 的 个 性 多 样 性 ， 商 品 的 属性 显得 较为 单一 。 商 品 的 特点 主要 可 以 
通过 3 方面 来 刻画 ， 分 别 是 产品 的 产品 热 虑 、 季 节 因 系 和 产品 的 消耗 频率 。 


产品 的 热度 该 怎么 理解 呢 ? 产品 的 热度 可 以 看 作 产 品 的 受 欢 迎 程度 。 比 如 一 秋 产 品 被 
点 击 的 次 数 很 多 或 者 被 购买 了 很 多 次 , 那么 融 可 以 通过 一 个 特征 来 表示 这 个 产品 的 党 欢迎 
ee eae cee ae ee 
首先 算 一 下 全 部 产品 的 总 购买 量 然后 求 平均 值 ， 总 购买 量 和 平均 值 的 对 比 进 行 打 标 。 
针对 第 二 种 方式 的 公式 如 下 : 






































m 1 产品 总 购买 量 宇 平均 值 
i ana 购买 量 SFL 


0, 产品 总 购买 量 二 平均 值 
这 里 选择 后 一 种 方式 ， 数 据 集 变 为 表 4-18。 


ep AAR 


产品 的 季节 因 素 比 较 好 理解 ， 因 为 很 多 商品 如 衣服 和 水 采 等 ， 都 是 有 季 区 限制 的 。 比 
如 一 件 商 品 古 短 袖 ， 可 能 在 收 天 会 卖 得 很 好 ， 在 冬天 可 能 头 不 会 家 购买 。 这 里 需要 对 产品 
FAS SET ZA] DEL E ESE TRT EE PUTES A55 ps , 时 间 粒 上 度 根 据 场 景 目 行 判 晰 , 如 末 以 月 为 单位 米 计 算 
这 样 数据 变 为 表 4-19 的 形式 。 


d 
































a 4-19 加 上 时 间 序 列 


产品 ID | 购物 行为 BE | 产品 2 月 被 购买 量 | …… | 产品 9 月 被 购买 量 
2999 Za 6H5H 235532 NEN 24352 


MPAA TE, FRA DAS BEATE m AOE IE, 2X SHESE EAE REX al] 
MOM i REM ME E E 
ICAI], DAX T BAERK, FIRE PAP Aika Se, AA BAESUHGHRISS HH, 
QUOT FALE Tan. FPR BR 4s RI BERRA EAR BER. DUTURERERJ TE. 
RPA ABA, AREKE Pe Pe 2H 2 TRIB dE RISER, RCA A 
mA, WR A 分 别 被 甲 、 乙 、 丙 三 个 人 购买 过 ， 且 只 有 甲 和 乙 买 了 两 次 ， 内 买 了 一 次 。 甲 
和 乙 的 两 次 购物 间 隅 分 别 是 0.4 和 2.6 个 月 。 那 么 A 的 消费 间 隅 如 下 : 
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ur ya aye 2.640.4 
A 产品 的 消费 间隔 = 





=1.5 





A 的 被 二 次 购 关 率 为 2/3。 通 过 这 两 个 特征 的 抽象 ， 数 据 变 为 表 4-20 所 示 的 形式 。 


表 4-20 添加 消费 间隔 和 二 次 购买 率 


日 期 | 产品 2 月 产品 9 月 被 | 消费 间隔 
f 被 购买 量 购买 量 (AD 





Pe [osn asm | | 5 | 1s | wm 

(3) 购物 者 和 商品 天 条 。 购 买 者 和 商品 之 间 的 天 系 特 征 是 最 难 被 作 生 出 来 的 ， 这 个 特 
伍 主 要 表示 的 古 特定 用 户 对 特定 产品 的 副 爱 程度 。 这 里 举 一 个 简单 的 例子 , 假设 小 闫 看 上 
了 一 条 连衣裙 ， 但 古 因为 价格 太 吐 ， 小 美 一 直 没 有 下 定 决心 要 买 ， 于 是 小 美 束 每 周 都 会 点 
击 这 条 连衣裙 的 店铺 ， 等 行 店铺 促销 或 者 这 条 连衣裙 打折 出 售 的 时 候 入 手 。 这 种 行为 其 实 
并 不 少见 , 我 们 可 以 通过 一 个 特征 来 刻画 。 这 个 特征 融 是 用 户 A 对 产品 了 的 点 击 频率 ,可 
以 统计 每 个 月 A 对 B 的 点 击 数 量 ， 这 是 一 种 用 户 和 商品 的 对 应 属性 特征 。 


到 此 为 止 , 我 们 通过 对 用 户 购 物 数 据 这 梓 一 个 剃 见 的 场景 进行 特征 们 生 , 展示 了 如 何 从 
多 个 方面 来 刻画 数据 的 特征 , 挖掘 效 据 字段 辣 的 隐 含 信息 以 及 如 何 从 有 限 个 特征 往生 出 十 几 
个 甚至 上 百 个 特征 的 方法 。 特征 衍生 是 特征 工程 中 的 关键 一 环 , 能 合 挖 气 出 好 的 特征 是 决定 
整个 机 带 学 习 学 习 实 验 的 关键 。 在 实际 的 应 用 场景 中 ,针对 不 同 的 业务 ,会 有 不 同 的 特征 衍 
生 万 法 ,这 必要 求 数 据 开发 者 中正 地 理解 业务 场景 。 特征 作 生 也 纯 证 了 这 标的 观点 : nta 
掘 的 工作 永远 不 是 单纯 依靠 数学 公式 来 解决 问题 ， 一 定 要 结合 实际 的 行业 经 验 来 做。 
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43 六 中 介绍 了 如 何 通 过 特征 作 生 的 方法 来 挖 据 于 有 价值 的 特征 ， 在 这 一 要 介绍 一 
特征 降 维 的 方法 。 








4.4.1 特征 降 维 的 基本 概念 
什么 是 特征 降 维 呢 ? 从 字面 意义 来 理解 的 话 ， 如 末 输 入 的 数据 源 是 一 个 多 字段 的 矩 
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阵 ， 特 征 降 维 瓯 是 欣 气 出 其 中 的 关键 字 段 ， 从 而 减少 输入 乍 阵 的 维度 。 特 征 降 维 撤 术 被 三 
池 用 到 解决 志 维 度数 据 问 题 的 场景 下 ， 特 别 是 针对 图 像 识别 或 者 是 文本 分 析 领 域 。 下 面 册 
来 介绍 一 下 特征 降 维 的 主要 目的 。 

C1) 确保 变量 间 的 相互 独立 性 。 特 征 间 的 相互 独立 性 要 如 何 理解 呢 ? 惑 是 减少 特征 值 
之 间 的 关联 ， 例 如 我 们 有 下 面 的 一 份 数据 〈 见 表 4-21 )。 


表 4-21 数据 























字 & 1 F R2 
4 4Xa 
5 5Xa 
6 6Xa 











BLEU FR? Fae FRI?” PWA REEE a. ilis E 
的 概念 可 以 了 解 到 “字段 2” FeAl aE SE VED ABI NTU TE RUE, SONAL, Fe 
A TEI VIGEGSER IE RAE NEBR TR RY RTC Md A SEC o 


(2) RORE. ELLA, TR AGISHARORTEGHBIABEEAZEHE RA BI LACE, Ral 
FEDERE, OPER DEA A RA ERAS THE 5 | BERET, 所 以 通过 
FER ERRAEBOR A AMZ) that, ROB PSI BOAR, PEEBLES TE HI c 

(3) Alko JRRIEBRZEFY DAGON S RBCS BU CHE / MOF BAER UDA 
要 的 干扰 。4.2 TASTER SRE EPA, SOAR RT VAs a LE PRE BON RT $5 

影 啊 较 小 的 特征 ， 将 有 效 减少 特征 评估 阶段 的 工作 量 。 

既然 特征 降 维 有 这 么 多 的 作用 ， 因 此 很 多 统计 学 家 早已 对 这 个 领域 扩 术 做 了 深入 的 研究 ， 

目前 已 经 有 几 种 较为 成 用 的 特征 降 维 技术 。 效 据 挖 据 领 域 中 首 用 的 降 维 方法 包括 以 下 几 种 。 
















































































(1) 主 成 分 分 析 。 主 成 分 分 析 (Principal Component Analysis, PCA ) 是 最 稼 用 的 一 种 
线性 降 维 方法 。PCA 通过 线性 映射 投影 的 方法 , 把 高 维 的 数据 映射 到 了 低 维 的 宇 间 中 。PCA 
在 投影 过 程 中 尽 可 能 地 保证 投影 维度 上 的 数据 方 卷 最 大 ， 同 时 保留 较 多 原 数 据点 的 属性 。 
PCA 并 不 试图 探索 数据 内 在 的 结构 ， 是 一 种 信息 损失 较 小 的 线性 降 维 方式 。 


(2) 线性 判别 式 分 析 。 线 性 判别 式 分 析 (Linear Discriminant Analysis, LDA ) 是 一 种 
经 典 的 特征 降 维 方法 , 线性 鉴别 分 析 的 基本 思想 是 将 高 维 的 模式 样本 投影 到 最 佳 鉴 别 天 量 
宝 间 ， 以 达到 抽取 分 类 信息 和 压缩 特征 空间 维 数 的 效 末 ,投影 后 保证 模式 样本 在 新 的 和子 空 
间 有 最 大 的 类 间距 离 和 最 小 的 类 内 距离 ， 即 模式 在 该 空间 中 有 最 佳 的 可 分 离 性 。 通 俗 的 解 
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Flies ee Al BER Aa Wada, KESE, AIHZSBUIRISBZSER A. 
QÈ: 线性 判别 式 分 析 LDA， 不 是 文本 分 析 中 的 主题 模型 LDA, ) 
(3) 局 部 线性 舱 入 。 局 部 线性 移入 ( Locally Linear Embedding, LLE ) 与 上 面 的 线性 
降 维 算法 不 同 ， 这 是 一 种 非 线 性 降 维 算 法 ， 符 点 是 降 维 之 后 可 以 继续 你 持 数 据 的 流 形 结 
构 。 简 单 理解 就 是 通过 LLE 降 维 算法 之 后 ,原来 融 维 度 上 相近 的 数据 点 在 低 维 上 依旧 中 
AHL o 











4.4.2. 主 成 分 分 析 


前 面 简单 介绍 了 特征 降 维 的 一 些 基 本 概念 、 目 的 以 及 和 剃 用 的 方法 。 下 面 会 证 细 介 绍 一 
下 主 成 分 分 析 (Principal Component Analysis, PCA ), PCA 是 最 沿用 的 一 种 特征 降 维 算 法 。 
PCA 的 基本 思路 是 旋转 坐标 轴 到 方差 最 大 的 方 同 。 设 X 是 一 个 变量 , E(X) 表 示 的 是 数 据 的 
平均 值 ，E{[X-E(X)] 汪 表示 的 是 方差 。 在 实际 数据 集中 ， 廊 差 表 示 的 是 数据 变化 可 能 性 最 
大 的 方向 ， 我 们 通过 一 组 二 维 数 据 集 来 举例 (C 见 图 4-2 )。 





















































图 4-2 PCA 数据 样 例 











图 4-2 中 展示 了 二 维 数据 的 坐标 ， 通 过 数据 的 分 布 不 难看 出 来 : 直线 A 的 发 展 方向 是 
这 组 数据 的 方差 最 大 方向 , 因为 在 直线 4 的 发 展 方向 上 面 分 布 的 数据 点 是 最 多 的 , 是 数据 
变化 可 能 性 最 大 的 方向 ， 也 融 是 信息 量 最 大 的 方向 。 所 以 在 降 维 的 过 程 中 我 们 尽 可 能 地 要 
保留 直线 A 上 面 的 信息 量 。 那 么 在 PCA 的 计算 过 程 中 是 如 何 实现 保留 原始 数据 最 大 方差 
方向 数据 的 呢 ? 它 主 要 是 通过 转换 坐标 系 的 方法 , 把 源 数据 的 最 大 方差 方向 变 为 新 坐标 系 
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的 一 个 坐标 轴 ， 另 一 个 轴 选 择 与 新 坐标 轴 垂 直 的 直线 。 一 直 重 复 这 样 的 操作 ， 就 可 以 减 小 
数据 的 维度 。 下 面 通 过 一 个 例子 说 明 ， 将 图 4-2 中 的 数据 进行 坐标 系 转化 ， 把 方差 最 大 方 
向 变 为 新 坐标 系 的 横 轴 ( 见 图 4-3 )。 


15 











旋转 前 


1ü 





旋转 后 


—5 à à " 
-10 -5 0 5 10 15 
X 


图 4-3 旋转 对 比 
下 面 介绍 如 何 通 过 PCA 数学 公式 进行 特征 降 维 。 


(1) 求 协 方差 窍 阵 。 先 来 了 解 下 什么 古 协 方差 ， 协 万 差 是 表示 不 同 维 度数 据 间 关 联 的 
一 种 统计 学 算法 。 前 面 提 到 的 方差 是 指针 对 早 一 维度 的 变化 ， 这 里 协 方 差 可 以 表示 维度 之 
间 的 信息 。 比 如 说 有 一 份 数 据 中 的 两 个 字段 分 别 表 示 的 是 人 喝 饮料 的 数量 、 人 体重 的 增长 
情 侈 。 我 们 想 了 解 哆 饮料 是 侣 与 体重 增长 相关 ， 风 再 要 通过 求 协 方差 的 方法 来 实现 。 


协 方 差 的 公式 如 下 : 





















































> QC -XY - Y) 


n-1 


上 式 表示 的 是 匀 和 了 的 协 方差 , 沿用 上 面 的 例子 ,可 以 把 X 看 成 人 哟 饮料 的 数量 , 了 看 成 
古 体重 增长 的 数据 。 把 上 和 面 公 式 计 算 的 结 来 奏 入 分 析 ， 如 采 结 果 是 正 值 , RH X A Y EH 
天 ， 喝 的 饮料 越 多 体重 增长 越 快 ;， 如果 是 负 值 ， RR X M YAAR, 喝 的 饮料 越 少 体重 增 
长 越 快 ， 如 采 结 采 是 零 ， 表 示 这 两 个 属性 没有 关系 。 

前 面 的 例子 介绍 了 二 维 协 方差 的 意义 和 求解 方式 。 但 是 ， 我 们 的 数据 兰 算 阵 通 弟 都 
征 多 维 数据 ， 这 了 融 需 要 引用 垂 阵 协 方差 的 概念 及 解决 多 维 数据 的 问题 。 协 方 老 矩阵 的 定 
义 如 下 : 


cov(X,Y)- 
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Cpa - (C,;. C,,  cox(Dim,, Dim, ) 


HJ 





[Eis — SAFE, ERT Ae X.Y. Z. Wk MAEM n] VAS ZJ 


cov(x,x) cov(x,y) cov(x,z) 


C =| cov(y,x) cov(y, y) cov(y, z) 
cov(z,x) cov(z, y) cov(z,z) 











FEM Ae TAT PRAY, rf HOGAR EIU REATREOERAS 25 o 


(2) 捉 取 特征 值 和 特征 向 量 。 通 过 前 面 的 介绍 已 经 了 解 了 如 何 求解 协 方差 矩阵 ， 接 下 
来 需要 计算 特征 值 和 特征 矩阵 。 特 征 值 和 特征 矩阵 的 概念 : 设 A cen MEPE, SRE 
数 m MAES n 维 询 向 量 x， 使 得 Ax=mx K, MER me A 的 一 个 特征 值 。 非 零 n SES I 
E x 称 为 矩阵 A 的 属于 特征 值 m 的 特征 同 量 。 


该 如 何 理 解 特 征 值 呢 ?特征 值 越 大 ,说 明和 矩阵 在 对 应 的 特征 疝 量 上 的 方 拳 越 大 ,信忠 
量 越 多 ， 这 跟 上 文 所 提 到 你 留 数据 方差 大 的 方向 的 思路 是 对 应 的 ,所 以 接 下 来 要 做 的 工作 
就 是 把 特征 向 量 和 特征 值 全 部 求 出 米 , RRR IEE PR ABI SIL AP HES, CPA HIT N 维 的 
特征 同 量 ， 束 是 将 矩阵 降 维 到 N 维 。 这 样 做 的 目的 是 , 在 降 维 的 过 程 中 尽量 保证 数据 的 信 






























































(3) 代 但 展示 。 通 过 Python 的 Numpy 库 简单 实现 以 下 PCA 算法， 整体 的 代码 如 下 。 


from numpy import * 

def pca(dataMat, dimen): 
meanVals = mean(dataMat, axis=0) #1 
meanRemoved = dataMat - meanVals #2 
covMat = cov(meanRemoved, rowvar-0) #3 
Vals,Vects = linalg.eig(mat(covMat)) #4 
ValInd = argsort (Vals) #5 
ValiInd = ValInd[:-(topNfeat-41):-1] #6 
redEigVects = Vects[:,ValInd] $7 
lowDDataMat = meanRemoved * redEigVects #8 


return lowDDataMat #9 








。 两 个 入 参 分 别 表 示 的 是 输入 矩阵 dataMat, dimen 是 需要 降 维 到 的 维度 (不 可 以 超 
过 矩阵 维度 ) 


O 
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e 第 1 步 和 第 2 步 是 对 每 个 字段 求 平 均 数 并 且 对 平均 数 求 减法 。 
e 第 3 步 利用 numpy MKD ABOVE RA Zo 
e 第 4 步 求 特 征 值 和 特征 向 量 。 


e 第 5 步 把 特征 值 按照 从 大 到 小 排序 , 第 6 步 去 挥 和 矩阵 的 额外 维度 的 特征 值 , 保留 前 
dimen 个 特征 值 。 











。 H5 7 PR Pa Hl dimen 个 特征 值 的 对 应 特征 向 量 。 

。 第 8 步 和 第 9 ARE DEIR 2) dimen 个 上 文 求 得 的 特征 同 量 空间 上 ， 并 且 返 回 。 

以 上 就 古 主 成 分 分 析 的 基本 概念 以 及 算法 推导 和 代 公 实现 。 通 过 对 特征 值 进行 降 维 操 
作 可 以 为 特征 分 析 和 和 矩阵 计算 提供 便利 。 特征 降 维 作为 重要 的 特征 工程 算法 震 要 器 述 一 步 
的 理解 和 人 研究， 本草 只 十 一 个 简 蛙 的 概念 介绍 和 实现 , 具体 深入 的 学 习 请 查阅 相 天 的 论文 
或 者 刊物 。 





























4.5 本章 小 结 


这 一 半 介 绍 了 特征 工程 的 内 容 , 笔者 一 直 认 为 特征 工程 这 一 部 分 对 整个 机 带 学 习 的 模 
型 训练 郡 是 至 天 重要 的 一 步 ， 我 们 通过 这 一 章 可 以 了 解 特 征 抽 绷 、 特 征 重要 性 评 佑 、 特 征 
往生 和 特征 降 维 等 概念 , 如 何 把 这 些 概念 灵活 地 应 用 到 实际 的 场景 解决 方案 中 还 需要 大 量 
的 数据 挖 据 经 验 。 相 比 于 对 算法 理论 知识 的 稳 握 ， 特 征 工程 这 一 块 更 考验 的 是 算法 工程 师 
的 功底 和 经 验 。 对 一 个 需要 不 断 优化 的 模型 来 庆 ， 特 征 工程 往往 是 一 个 误 长 的 工程 ， 需 要 
依赖 数据 的 积累 以 及 对 业务 的 理解 不 断 加 深 。 
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Har roH VAREBERS NV AS tbe Ru, MGEBBBUIBU. RAMD 2S EA BIA 
A, WEEHUEBIRISCASA SES SIBI SS t ts eA, PRA SRE Li 
STEWART RLA EWR, Wu] See Me AN SAE, TREATS 
算法 的 属性 、 优 势 和 缺陷 ， 对 之 后 的 算法 应 用 会 有 很 大 的 帮助 。 在 这 一 划 ， 笔者 会 针对 不 
同 种 类 的 典型 算法 进行 介绍 。 布 望 各 位 读者 在 学 习 了 本 章 之 后 ,对 每 一 种 算法 有 一 个 基础 
的 认识 。 







































































分 类 自 法 是 用 来 解决 分 类 问题 的 算法 ， 关 于 场景 的 抽 过 方 法 在 前 面 草 中 已 经 介绍 
了 ,分 类 鼻 法 是 场景 最 丰富 的 一 类 算法 ,广告 的 投放 和 疾病 预测 等 都 可 以 抽 角 成 分 类 问题 。 
分 类 算法 一 般 都 是 监 千 学 习 算法 ， 因 为 需要 通过 已 有 的 打 标 数据 米 生 成 分 类 模型 。 在 这 一 
部 分 选取 了 儿 种 比较 典型 的 分 类 算法 进行 介绍 ,分 别 是 K 近 人 KNN 和 仆 朴 又 册 时 期 (NBM 小 
RATAN] CLR) CEE: 这 里 LR 作为 二 分 类 算法 ，LR 也 是 回归 算法 的 一 种 )、 随 机 森林 (RE ) 
和 线性 支持 问 量 机 (SVM). 















































5.1.1 K 近邻 











RS ATE Re Lae TEI f, ABS TE PRE EEE, 有 很 多 公式 需要 
id. WRS, 79 T BEA BOSE DID Les E ENS ree, 我们 先 从 最 简单 
PIE (KER) AFFA., Kom BEES Res lab, MEU BEE ay oe 
只 要 有 一 点 数学 基础 ， 差 不 多 用 20 oH AMET HES, TA ESR TIAA, AF 
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个 小 时 束 可 以 实现 一 版 简单 的 K 近邻 程序 。 下 面具 体 来 看 一 下 天 近 分。 


1. 基础 概要 


K Jt ( K-Nearest Neighbor, KNN ) 是 一 种 A 
非常 简单 的 机 器 学 习 算 法 ， 主 要 用 来 解决 分 类 问 m Nr e A 
UL, KNN 是 监督 学 习 分 类 算法 ， 在 分 类 前 需要 有 d E 
打 标 数据 。 从 字面 意思 来 理解 ，KNN 是 一 种 Lazy 
Learning〈 也 可 称 为 “惰性 学 习 ”， 可 理解 为 考虑 B: 
问题 的 最 简化 情况 ) 模式 的 算法 ， 因 为 它 的 分 类 
只 考虑 距离 目标 点 最 临近 的 天 个 点 的 类 别 ， 具 体 ~ K5 



































是 怎么 实现 的 呢 ? 我们 通过 引用 KNN 在 维基 百 ENRE p . 
a Hh. 44 SEE FI 
科 中 的 一 张 图 ( 见 图 5-1) 来 讲解 。 图 5-1 KNN 算法 模型 








图 5-1 表示 在 二 维 空 间 中 的 一 个 分 类 场景 ， 三 角形 和 正方 形 的 图 形 代 表 已 经 打 标 过 的 
两 种 数据 的 分 布 ， 打 间 写 的 圆 形 数 据 是 我 们 需要 进行 分 类 的 预测 对 象 。 百 先 在 算法 推导 之 
前 需要 先 设置 KK 值 。 


1) 当 K=3 时 ， 我 们 找 出 距离 预测 集 ， 也 束 是 圆 形 效 据 最 近 的 3 个 数据 ， 这 3 个 数据 
中 有 2 个 三 角形 、1 个 正方 形 。 所 以 圆 形 数 据 会 被 分 到 跟 三 角形 数据 一 类 ， 因 为 在 K=3 的 
半径 区 间 中 三 角形 的 数量 器 优 。 


2) 当 K=5 时， 找 出 距离 圆 形 数据 最 近 的 5 个 数据 点 ,分 别 是 3 个 正方 形 和 2 个 三 角 
形 ， 那 么 预测 点 会 被 分 到 属于 正方 形 的 这 一 类 。 


通过 上 上面 的 这 个 例子 我 们 可 以 了 解 到 , 天 值 对 预测 对 象 的 最 终 预 测 结 来 的 影响 是 很 大 
的 。 KK 值 取得 太 小 可 能 会 造成 参与 评估 的 样本 集 太 小 ， 结 来 没有 说 服 力 ; K 值 取得 过 大 ， 
会 把 距离 目标 队列 距离 过 远 的 一 些 只 首 数据 也 考虑 进去 ， 造 成 结 来 的 不 准确 性 。 所 以 在 
实际 的 算法 使 用 过 程 中 ， 和 需要 对 kK 这 个 参数 进行 及 复 的 调试 ， 才 可 以 达到 一 个 比较 理想 
HILAR o 


下面 来 了 解 KNN 算法 的 一 些 特性 。 首 先 ，KNN 不 同 于 其 他 一 些 算 法 的 地 方 是 KNN 
不 光 可 以 解决 二 分 类 场景 的 问题 ， 同 时 也 可 以 解决 多 分 类 的 问题 ， 因 为 无 论 需 要 分 类 的 目 
标 列 有 几 种 可 能 ，KNN 只 考虑 与 日 标的 距离 最 近 的 K 个 点 的 集合 中 哪个 类 别 的 点 数量 最 
HRA. DIN, A KNN 的 原理 和 实现 性 较为 简单 ， 所 以 后 期 调 优 过 程 中 的 工作 量 相 对 
来 讲 比 较 小 。KNN 比较 大 的 问题 束 是 对 桩 本 分 布 比例 不 均衡 的 情况 可 能 会 造成 结 末 的 个 准 








































































































确 性 ， 如 图 5-2 所 示 。 


在 上 面 的 这 个 二 维 空间 中 ， 正 方形 和 六 边 
形 表示 已 经 打 标 好 的 数据 集 ， 我 们 需要 对 五 角 
星 进行 分 类 。 通 过 上 图 的 数据 分 布 ， 从 距离 的 
角度 直观 来 看 ， 五 角 星 应 该 属于 正方 形 这 一 类 ， 
因为 五 角 星 的 周围 都 古 正方 形 。 但 古 由 于 整个 
数据 集 有 的 分 布 不 平衡 ， 六 边 形 的 数量 远 多 于 正 
方形 的 数量 ， 所 以 当 K=9 或 者 更 大 的 时 候 ， 预 
WEE BEERS. PLA KNN 在 目标 数据 集 数 
量 比例 分 布 不 平衡 的 情人 次 下 ， 可 能 会 造成 预测 结束 的 不 准确 。KNN BIA IRUSUSUE: 
计算 成 本 很 局 ， 因 为 每 个 预测 点 都 需要 对 全 量 数 据 索 进 行 一 次 距离 的 计算 和 排序 ， 这 样 融 
会 造成 非常 大 的 计算 资产 开销 。 上 面 我 们 介绍 了 KNN 的 一 些 基本 概念 和 特性 ， 下 面 来 看 
一 下 其 体 的 自流 推导 过 程 。 


















































5-2 KNN 特性 展示 


























2. 算法 推导 

通过 上 面 的 介绍 ， 我 们 可 以 了 解 到 KNN 的 算法 原理 ， 下 面 来 看 具体 的 推导 过 程 。 

1) 因为 KNN 十 监督 学 习 ， 所 以 首先 要 加 载 打 标 好 的 数据 集 (多 分 类 或 者 二 分 类 数据 ), 
然后 需要 设 定 一 个 天 值 。 

2) 在 预测 的 过 程 中 ， 需 要 针对 每 一 个 预测 对 象 计 算 它 与 所 有 数据 集 的 距离 ， 这 个 中 
离 的 计算 一 般 通 过 求 欧式 距离 来 实现 ， 欧 式 距离 可 以 描述 两 点 在 n 维 空间 的 真实 距离 ( 物 
理 距 离 求解 方法 比较 简单 , 己 知 两 个 n 维 同 量 人 Xn) Al Y=(V1,V2V3" "ty ya) , Jb 
么 这 两 个 同 量 的 欧式 距离 公式 可 以 表示 为 


dey) = | 0 7 Y 
isl 


RRR RET THER, ARAE AA K SAA BURR e 
ERRER, ECR PRAISE RAPE, CEE TBR ZS AE A UB A 


ERAS Fil 





























整个 KNN 的 推导 过 程 比较 简单 ， 主 要 涉及 距离 计算 和 排序 两 个 功能 点 。 这 里 只 十 针 
对 最 简 早 的 KNN 情况 进行 介绍 ， 具 体 的 实现 可 以 有 很 多 的 优化 方式 ， 如 可 以 在 计算 前 多 
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排除 挥 与 预测 集 数 据 距离 较 大 的 一 些 唆 首 点 ， 从 而 近 局 计 算 效 率 。 
3. 工程 实现 


上 向 介绍 了 整个 算法 的 推导 ,现在 看 一 下 如 何 通 过 工程 来 实现 KNN。 








import math 


import operator 


def euclideanDistance(instl, inst2, length): 
distance = 0 
for x in range (length): 
distance += pow((instl[x] - inst2[x]), 2) 


return math.sqrt (distance) 


def getNeighbors(trainingSet, testInstance, k): 

distances - [] 

length = len(testInstance) - 1 

for x in range(len(trainingSet)): 
dist = euclideanDistance(testInstance, trainingSet[x], length) 
distances.append((trainingSet[x], dist)) 

distances.sort (key = operator.itemgetter (1) ) 

neighbors = [] 

for x in range(k): 
neighbors.append (distances [x] [0]) 


return neighbors 


def getResponse (neighbors): 
classVotes = {} 


for x in range(len(neighbors)): 


response = neighbors[x][-1] 
if response in classVotes: 


classVotes[response] += 1 
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else: 


classVotes[response] = 1 


sortedVotes-sorted(classVotes.iteritems(),key- operator.itemgetter(1), 
reverse-True) 


return sortedVotes[0][0] 


使 用 的 Python 版 本 为 Python 2.7, 3x H 5| Y Python 的 numpy 和 operator 两 个 库 ， 
下 面 看 一 下 代码 中 几 个 函数 的 输入 和 输出 。 








e euclideanDistance: 这 个 函数 主要 是 求 两 个 向 量 的 欧式 距离 ， 输 入 的 3 个 参数 分 别 
是 向 量 1、 向 量 2 和 向 量 的 维度 。 








e getNeighbors: 在 数据 集中 找到 所 需要 预测 数据 的 个 最 临近 点 并 返回 ， 输 入 的 3 
VEST MERGER. WHR K 














e getResponse: 返回 对 上 日 标 值 的 预测 结 来 ， 输 入 的 十 getNeighbors 函数 的 返回 值 。 


下 面 通过 一 个 实例 ,来 看 看 上 面 代 码 的 运行 结 末 。 输 入 打 标 好 的 数据 集 : 











trainoet = [ty ly -ly “a ley 2,5 254 Tet lr [hy Ly 95; "a ls ld 4, Ay *b'T& Oy 0; 











trainSet 是 一 个 4 维 数 据 集 , 最 后 一 个 字段 是 目标 列 , 一 共有 6 个 点 , 分 为 a Alb WR 
类 别 。 预 测 集 是 testInstance=[5, 5, 5]. 





把 这 两 组 数据 市 入 上 面 的 函数 中 可 得 


def main(): 
transect. = DLE y Sat] Zu»; td bs Weg teWupe le Dy 
[O5 0, 0, 'a'], [4, qu 4, e A 


testInstance = [5, 5, 5] 

k=5 

neighbors = getNeighbors(trainSet, testInstance, k) 
response = getResponse (neighbors) 


print "\nNeighbors Are: ", 


print (neighbors) 
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print "\nResponse is: ", 


print repr (response) 





1) 4 K=3 时 ， 返 回 络 未 如 图 5-3 所 示 。 


Neighbors Are - - [[4,- 4.5,: 4, - 'b' ],- [4,: 4,:4,- 'b'],- [2, 2, 2, a ]] 


Response is:  'b' 
[Finished in 0.2s] 


5-3 K=3 时 的 返回 结 











我 们 看 到 在 最 近 的 个 点 里 ， 类 别 是 b 的 点 有 2 个 ， 类 别 是 a 的 点 只 有 1 个 ， 所 以 
testInstance 的 预测 值 是 bo 


2) 当 K=5 时 ， 返 回 结果 如 图 5-4 所 示 。 








Neighbors-Are::- [[4,-4.5,- 4, - 'b' ],: [4,: 4,- 4, bil [2,- 2, 2, a ],: [1, 13, 1,- a [3,: 1, 3, - 'a' 1] 


Response is:  'a' 
[Finished in 0.2s 





5-4 K=5 时 的 返回 结 








这 时 候 预 测 集 的 neighbor 中 类 别 是 a 的 点 的 数量 占 优 ,所 以 最 终 testInstance 的 预测 结 
RET 283 a; 


以 上 介绍 了 KNN 的 算法 原理 以 及 推导 ， 并 且 通 过 Python 代码 进行 了 实现 。KNN fF 
为 最 徐 单 的 机 带 学 习 算法 比较 适合 新 于 入 门 了 解 , 所 以 作为 算法 章节 的 第 一 个 得法 进行 介 
绍 。KNN 算法 在 文本 分 类 和 图 像 分 类 等 场景 有 许多 的 应 用 ， 和 半音 作 为 业务 场景 下 的 重要 
分 类 模块 来 使 用 。KNN 在 性 能 上 有 许多 可 以 优化 的 方法 ， 本 世上 只 是 从 最 基础 的 实现 角度 
来 介绍 ， 如 果 想 对 KNN 有 更 深刻 的 了 解 ， 请 查看 相关 资料 并 且 通 过 大 数据 集 进行 实验 。 
























































5.1.2 朴素 贝 叶 斯 


如 朱 你 是 一 个 计算 机 相 天 专业 音 业 的 学 生 ， 那 么 一 定 听 说 过 由 时 斯 这 个 人 。 贝 叶 斯 
(Bayes ) 定理 是 由 英国 数学 家 贝 叶 斯 发 明 的 ， 用 来 描述 两 个 条 件 概率 的 关系 。 朴 又 贝 叶 斯 
是 贝 叶 斯 定理 的 简单 实现 ， 是 第 见 的 一 种 利用 先 验 概率 进行 分 类 的 分 类 右 。 杆 素 由 叶 斯 的 
基础 建立 在 一 个 假设 条 件 之 上 ， 即 所 有 特征 的 条 件 之 间 相 互 独立 。 下 面 来 详细 介绍 下 朴素 
贝 叶 斯 分 类 算法 。 
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1. 基础 概要 


朴素 贝 叶 斯 模型 (Naive Bayesian Model, NBM ) 作为 以 条 件 概率 为 基础 的 分 类 器 ， 是 
一 种 监督 学 习 算 法 ， 常 被 用 于 文本 分 类 和 垃圾 邮件 过 滤 等 场景 中 。 为 了 更 好 地 帮助 大 家 理 
解 贝 叶 斯 理论 ， 下 面 摘 选 一 段 维基 百科 上 的 介绍 。 贝 叶 斯 理论 解决 的 是 赣 向 概率 问题 。 假 
设 一 个 袋子 里 及 个 白 球 ，M 个 黑 球 ,计算 从 这 个 袋子 摸 出 黑 球 的 概率 是 很 容易 的 ， 这 是 
一 个 正 向 概率 求解 的 问题 。 但 是 如 果 我 们 把 问题 反 过 来 ， 如 果 我 们 事先 不 知道 袋子 里 有 多 
少 个 黑 球 、 多 少 个 白 球 ， 我 们 摸 一 个 球 出 来 ,通过 所 摸 出 球 的 颜色 对 袋子 里 的 黑白 球 比 例 
进行 推测， 这 惑 是 逆向 概率 问题 。 贝 时 斯 定理 主要 是 通过 已 知 的 正 向 概率 求解 逆向 概率 。 


面 米 了 解 员 时 斯 理论 是 如 何 应 用 到 实际 的 分 类 场景 中 去 的 。 朴 素 贝 叶 斯 分 类 十 一 种 
机 融 学 习 的 监 丢 学 习 算法 ， 监 督学 习 意味 看 我 们 已 经 有 了 一 份 打 标 好 的 数据 作为 训练 样 
本 ， 可 以 把 训练 样本 的 数据 分 为 两 类 ， 特 征询 和 目标 列 。 特 征 列 表示 的 是 那 坚 特征 字段 的 
数据， 目标 列 是 打 标 字段 。 贝 时期 理论 在 分 类 场景 中 解决 的 问题 束 是 : 当 我 们 已 知 目标 人 列 
和 特征 列 各 目 分 布 的 概率 情况 下 ， 特 征 列 概率 已 知 ， 求 解 目 标 纠 每 个 值 的 概率 。 


这 里 涉及 几 个 概率 论 中 的 知识 点 ,， 首 抑 是 朴素 贝 叶 斯 中 “ 朴 款 ”两 个 字 的 概念 , 朴 聂 ” 
表示 的 是 一 种 比较 理想 的 环境 ， 融 是 特征 数据 之 间 彼 
此 独立 。 例 如 有 两 个 特征 分 别 是 m 和 n，P(m) 表 未 m 
发 生 的 概率 , 那么 P(mn) 表 示 m FU n 同时 发 生 的 概率 ， 
24 m 和 nn 独立 的 情况 下 : P(mn)= P(m)xP(n). PHE 
AT RARR EX, PAJB) (WE 5-5) 是 指 当 
事件 B 发 生 的 情况 下 ， 事 件 A 发 生 的 概率 。 


根据 概率 论 的 概念 可 得 






















































































5-5 条 件 概率 





pa RA, 
P(B) 
其 实 根 据 图 5-5 可 以 得 出 如 下 公式 也 是 成 立 的 。 
pcp) Ay - ZAB) 
P(A) 








也 就 是 说 通过 P(A OB) 这 个 两 个 概率 图 交叉 的 媒介 ， 可 得 到 
P(B | A)P(A)= P(A | B)P(B) 


贝 叶 斯 定理 的 最 终 公式 为 
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P(B | A)P(A) 


P(A|B)= PB) 


HH, PAE A 的 乞 验 概率 ， 因 为 在 计算 PCA)BUISHA SIE T B 的 影响 。P(AIB) 称 为 A 的 
后 验 概 率 ， 因 为 这 个 概率 中 A 的 概率 计算 是 在 B 已 经 发 生 了 的 基础 上 。 实 际 上 在 做 分 类 
的 时 候 ， 场 景 可 以 抽象 为 已 知 一 条 数据 的 特征 ， 预 测 这 条 数据 的 目标 结果 概率，P( 目标 
结 有 末 概 率 | 特 征 Jo 下 面 通过 一 个 案例 对 朴素 贝 叶 斯 进行 推导 。 








2. 算法 推导 
前 面 介 绍 了 由 时 斯 公 云 是 如 何 推导 的 ， 得 到 


P(B | AJP(A) 


P(A|B)= E 





看 一 下 如 何 通过 这 个 公式 进行 分 类 , 用 一 个 生活 中 的 例子 来 搬 述 风 叶 斯 算法 分 类 的 过 
程 ， 我 们 的 场景 是 判断 一 个 文生 是否 接 有 党 男生 约会 的 邀请 ， 前 所 是 文生 知道 为 后 的 且 遍 以 
及 男生 是 盏 拥 有 房产 。 这 个 场景 下 的 数据 集 见 表 5-1。 


表 5-1 数据 集 
160 没有 不 约会 
TEX TORS, “Sinn” A “Seas” eR VEE, “ERAS” EA. R 
(Ar Be We, MCAST "ERES AU “EA” MEER Ja 
判断 他 约会 成 功 的 概率 。 假 设 有 一 个 男士 M A re 180， 没 有 房产 ， 现 在 来 预测 M £j 
会 成 功 的 概率 。 根 据 贝 时 斯 公式 ， 最 终 要 计算 的 是 男士 M 的 后 验 概 率 ， 这 个 后 验 概率 是 
通过 他 的 “里 高 ”和 和 “是否 有 房 ” 两 个 前 提 条 件 得 到 的 。 公 式 为 
P(B| A)P(A) 
P(B) 

































































P(A|B)- 


把 A 看 作 “ 约 会 *，B 看 作 “ 壬 高 180” 和 “没有 房 ”"。 通 过 公式 表示 为 


Pr ; P(A 180x} 约会 )P( 约 会 
P 的 会 | SRB EB = NE 放 宙 交 人) 
1180 x 7x 





在 朴素 贝 叶 斯 定理 中 ， 前 提 条 件 是 特征 彼此 独立 。 根 据 上 面 一 个 小 节 所 介绍 的 特征 独立 的 
公式 P(mn)= P(m)x P(n)， 可 以 将 公式 变形 为 





a P(H 3180] 约会 )P( 没 约会 )P( 约 会 
PEIA | ALSO E) E AAA ROAD 


这 时 可 以 发 现 ， 上 面 的 式 子 中 的 右 侧 所 有 乘机 因子 都 是 可 以 通过 历史 数据 求解 得 到 的 。 下 
面 来 逐个 求解 这 些 因 子 。 


























e P( 55180 | AS): 表示 的 是 在 成 功 约 会 的 人 中 ， 身 高 180cm 的 人 占 的 比例 。 我 
们 从 总 的 数据 集中 提取 成 功 约会 人 员 的 数据 ( 见 表 5-2 )。 





表 5-2 E EUR 


170 - 约会 
180 没 房 约会 





从 上 面 的 表格 里 看 到 ， 约 会 成 功 的 人 中 吴 志 180cm 的 比例 是 2/3。 














。 了 (没有 房 | As): 跟 上 面 同样 的 道理 ， 约 会 成 功 的 人 中 没有 房 的 概率 是 1/3。 
e P(A): 一 共 5 个 人 ，3 个 人 约会 成 功 ， 所 以 P( 约 会 )=3/5。 

。 了 (号 高 180 ): 号 高 是 180cm 的 概率 为 2/5, 

e PRAF): 没有 有 房 的 概率 为 2/5。 

把 上 面 这 些 求解 的 概率 因子 融入 可 得 





ES (2/3)x(1/3)x (3/5) 
Wyo: | Be x 1x Bj) = 2————À—À—À—— - 
P(A | 身高 180x 没 ) (2/5)x (2/5) 5/6 











通过 上 面 的 结果 , 我 们 就 可 以 推断 出 身高 180cm 的 男士 即使 没有 房产 ,约会 成 功 的 概 
率 也 是 非常 高 的 ， 这 惑 解 决 了 一 个 “约会 成 功 ” 或 “约会 不 成 功 ” 这 样 的 二 分 类 问题 。 通 
过 这 个 例子 的 推导 ， 我 们 束 了 解 了 如 何 通过 朴素 贝 叶 斯 定理 来 进行 分 类 。 











71 


72 | $595 
机 前 学习 算法 一 一 常规 算法 


3. 工程 实现 


前 面 介 绍 了 朴素 贝 叶 斯 分 类 融 的 实现 原理 以 及 推导 过 程 , 这 一 小 和 将 介绍 如 何在 工程 
上 实现 村 素 贝 叶 斯 分 类 器 。 杆 素 贝 叶 斯 弟 被 用 作对 文本 类 的 数据 进行 分 类 ， 常见 的 有 新 闻 
ee ee eee ee 通过 发 现 每 一 个 类 别 的 文 
本 可 能 出 现 的 关键 词 的 概率 ， 然 后 通过 这 种 概率 计算 后 验 概 率 。 


在 这 里 采用 开 产 的 一 称 朴 又 贝 叶 斯 分 类 硕 来 实现 ， 有 具体 的 源码 可 以 参考 https// 
github.com/muatik/ VN E ， 代 但 可 读 性 非常 好 ， 建 议 充 分 阅读 一 过 ， 可 以 加 
PRT DUT ATER UGA 


1) ZO RH Rus. ANSE SEE Mac OS AZ, Python 2.7 WISER, B 
FOREN at Ba Se: 









































sudo pip install naiveBayesClassifier 


2) 文本 数据 集 。 这 里 有 一 组 数据 集 , 为 了 文本 分 词 方便 起 见 , 使 用 的 是 英文 语 料 (中 
To ee E Ara] “health” FI 
"politics" Df, ZORRO AAAF, IFEA] "text", Ate “category”. 





























newsSet -[ 
('text': 'not to eat too much is not enough to lose weight','category':'health'], 
i* texts "Russia. try to invade Ukraine',. "category" s "polrtros'], 
('text': 'do not neglect exercise', 'category': 'health'], 
{'text': "Syria is the main issue, Obama says"; "category" 'politics'}, 
('text': 'eat to lose weight', 'category': 'health'}, 
('text': 'you should not eat much', 'category': 'health'] 


3) RI HERE SE 


from naiveBayesClassifier import tokenizer 
from naiveBayesClassifier.trainer import Trainer 
from naiveBayesClassifier.classifier import Classifier 


newsTrainer - Trainer(tokenizer) 


newsSet =[ 


('text': 'not to eat too much is not enough to lose weight', 'category': 'health'], 
('text': 'Russia try to invade Ukraine', 'category': 'politics'], 
('text': 'do not neglect exercise', 'category': 'health'}, 

('text': 'Syria is the main issue, Obama says', 'category': 'politics'], 
('text': 'eat to lose weight', 'category': 'health'], 

('text': 'you should not eat much', 'category': 'health'] 








for news in newsSet: 


newsTrainer.train(news['text'], news['category']) 


newsClassifier - Classifier(newsTrainer.data, tokenizer) 


classification = newsClassifier.classify("eat more, you will become fatter") 


print (classification) 





因为 贝 叶 斯 分 类 算法 是 监督 学 习 ， 所 以 首先 通过 train 函数 输入 特征 列 和 目标 列 ， 训 
练 生成 分 类 模型 newsClassifier， 接 看 就 可 以 通过 这 个 分 类 模型 对 预测 样本 “eat more, you 
will become fatter” 进 行 预 测 , 最 终 得 到 的 预测 结果 是 这 人 句 话 归于 “health” 或 是 “politics”。 




















我 们 可 以 打印 下 最 终 的 分 类 结 未 ( ILS 5-6 )。 


[('health', 0.28125), ('politics', 3.0000000000000002e-18) ] 
[Finished in 0.3s]| 





5-6 贝 叶 斯 分 类 结果 


通过 图 5-6 的 结果 可 以 看 出 ， 风 叶 斯 分 类 理论 是 基于 概率 的 一 种 分 类 算法 。 最 终结 
返回 了 预测 集 属 于 "health ”或 是 "politics” 两 种 类 别 各 目的 概率 。 结 果 已 经 表明 f "eat more, 
you will become fatter” 这 人 句 话 属于 “health” 类 别 的 概率 较 大 。 具 体 的 算法 流程 是 通过 比 对 
预测 集 每 个 词 在 不 同 种 类 的 训练 样本 中 出 现 的 频率 大 小 来 综合 判断 的 。 正 是 基于 这 种 条 件 
概率 的 算法 推导 方式 ,使 得 风 叶 斯 分 类 在 文本 分 类 场景 下 得 到 了 广 沁 的 应 用 ,在 处 理 垃 专 
软件 过 滤 和 黄色 文本 过 滤 方 面 都 有 着 不 错 的 效果 。 

以 上 主要 是 对 朴素 贝 叶 斯 分 类 的 算法 理论 进行 了 介绍 。 通 过 上 文 的 介绍 ， 我 们 可 以 
了 解 朴 素 贝 叶 斯 的 分 类 原理 是 基于 概率 论 的 条 件 概 率 公 式 ， 比 较 容 易 理解 ， 而 且 在 很 多 
场景 下 具有 比较 好 的 性 能 。 同 时 ， 因 为 输出 结果 是 概率 值 ， 朴 素 贝 叶 斯 可 以 很 容易 地 从 
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二 分 类 场景 扩展 到 多 分 类 场景 中 去 ， 这 个 特性 也 是 贝 叶 斯 分 类 算法 比较 好 的 特性 。 如 采 
想 更 深入 地 了 解 贝 叶 斯 算法 的 更 多 场景 和 其 他 扩展 算法 ， 可 以 多 浏 砚 相关 的 论文 文献 ， 
建议 阅读 一 些 比较 成 熟 的 开源 项 目 源码 。 




















9.1.3 逻辑 回归 


逻辑 回归 (Logistic Regression, LR) 是 一 种 广义 的 线性 回归 分 析 模 型 ， 属 于 监督 学 习 
算法 。 逻 辑 回 归 可 以 用 在 回归 、 二 分 类 和 多 分 类 等 问题 上 , 但 是 最 常用 的 还 是 二 分 类 。LR 
作为 机 妖 学 习 算法 中 的 “明星 算法 ”， 无 论 对 大 数据 量 的 问题 或 是 小 数据 量 的 问题 部 有 很 
好 的 性 能 和 计算 结果 ， 而 且 在 参数 设计 上 也 比较 利于 调 参 。 同 时 ， 逻辑 回归 还 具备 特征 评 
估 的 作用 (在 之 前 的 特征 重要 性 评估 章节 有 详细 介绍 )。 正 是 因为 逻辑 回归 具备 这 样 多 的 
优势 ， 所 以 目前 不 等 张 地 说 ， 在 机 妖 学 习 岛 域 ， 有 不 少 于 一 半 的 场景 是 通过 远 辑 回归 算法 
来 解决 的 ， 所 以 学 会 逻辑 回归 等 于 学 会 了 机 带 学 习 的 “半壁 江山 ”。 


















































1. 基础 概要 

我 们 和 爷 来 看 下 逻辑 回归 是 如 何 分 类 的 ， 作 为 线性 模型 ， 顾 名 思 义 ， 丝 性 回归 惑 定 通过 
一 条 曲线 来 区 分 不 同 的 数据 集 。 这 里 以 最 直观 的 二 分 类 问题 为 例 ， 假 如 我 们 的 数据 是 二 维 
的 ， 可 以 通过 一 个 平面 坐标 轴 来 表示 ( 见 图 5-7 )。 

















图 5-7 数据 





图 5-7 中 的 数据 分 为 两 种 ， 一 种 通过 方形 表示 ， 一 种 通过 圆 形 表示 ， 通 过 远 辑 回归 算 
法 进行 训练 ， 最 终生 成 的 模型 会 是 一 条 二 元 一 次 直线 〈 因为 本 例 只 有 两 个 特征 )， 这 条 直 











线 会 用 来 对 两 种 不 同 的 数据 集 进行 分 类 ， 即 
y=axtc 


其 中 , y 和 x 是 变量 ,系数 a 和 c 就 是 我 们 训练 得 到 的 模型 结果 ， 二 分 类 结果 如 图 5-8 
所 示 。 








5-8 二 分 类 结 








理解 完 线性 模型 的 含义 后 ， 接 下 来 介绍 逻辑 回归 对 输入 数据 的 要 求 。 逻 辑 回 归 击 要 对 数 
据 进 行 一 些 和 矩阵 运算 ， 所 以 入 参 和 矩阵 的 每 个 数据 都 需要 是 数值 型 的 。 同 时 ， 丈 辑 回归 十 一 种 
监督 学 习 算法 ， 需 要 数据 是 打 标 好 的 。 如 果 是 二 分 类 问题 ， 通 常 目标 序列 都 是 表示 成 0 和 1 
的 形式 。 图 5-9 是 一 份 标准 的 逻辑 回归 算法 输入 ， 其 中 ，age、sex、duration 和 place IME. 
(id 是 string 型 的 ， 表 示 数 据 的 唯一 标识 ,不 参与 窍 阵 计算 )， 都 是 通过 数值 类 型 来 表示 的 。ctr 
是 目标 队列 ， 通 过 0 和 1 表示 ， 还 要 注意 输入 数据 要 尽 可 能 避免 空 值 或 者 乱 但 的 出 现 。 
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5-9 逻辑 回归 输入 样 例 
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2. 算法 推导 

前 一 部 分 介绍 了 一 些 天 于 远 辑 回归 算法 的 基础 概要 , 包括 线性 模型 的 意义 和 对 输入 人 参 
效 的 要 求 ， 这 一 部 分 将 重点 介绍 一 下 关于 逻辑 回归 算法 的 推 寻 过 程 。 首 和 多 及 了 解 逻 辑 回归 
算法 最 终 求 得 的 模型 是 怎样 的 ? 逻辑 回归 的 最 终结 末 旦 一 组 特征 的 系数 , 每 个 特征 有 一 个 
ROHR, 还 以 上 面 小 市 中 的 杆 例 数据 为 例 ， 因 为 输入 数据 的 特征 包括 age. sex, duration 
和 place， 生 成 的 线性 模型 为 
































y-wi X age+ w» X sex+ ws X duration+ wa X Place+C 


HHR, wi, wo. ws, wa, C eli AAA VA EAL REA, CHAO. RAH 
VIZ AE UR (UI 5-10 )。 





图 5-10 表示 的 是 每 个 特征 对 应 的 系数 wi, wa, Ws, wa, Co WHE RAAB, TT] 
融 可 以 利用 模型 来 进行 预测 了 。 

对 于 整个 多 辑 回归 算法 从 训练 到 预测 的 过 程 有 3 个 地 方 是 要 具体 说 明 的 , 一 个 是 如 何 
TUA RP IRE [0,1] ， 玖 一 个 是 如 何 求解 每 个 特征 的 系数 ， 了 最 后 是 如 何 利用 模型 进行 预 
测 。 于 十 这 里 残 引 由 了 逻辑 回归 最 天 键 的 3 个 步 又 ，Sigmoid 函数 、 最 优化 算法 以 及 预测 。 
































(1) Sigmoid PAZ, Sigmoid 函数 是 一 个 成 S 型 分 布 的 函数 ，Sigmoid 函数 的 公式 表示 为 








1 
S(t) = B 
l+e 
HEHH, t 为 变量 ，Sigmoid 函数 如 图 5-11 所 示 。 

1 
-0.1120802417019083 0.5 
-0.07912885954163844 
-0.2127786610864285 
-0.1798984207832452 
0.3235088 185180696 

—6 一 人 一 2 0 2 4 6 
5-10 ”逻辑 回归 模型 样 例 5-11 Sigmoid 函数 








通过 图 像 可 以 更 直观 地 了 解 到 ，Sigmoid RAZ VATER DXIRIS AJ TE [0,1] 36, 
于 中 。 如 采 把 上 面 的 案例 的 模型 市 进去 ， 就 表示 为 


1 


1+ e ™ xage+ w, xsex+ ws xdurationt+ wa xplace+C) 


S(t)= 





这 样 的 话 ， 结 朱 束 控制 在 0，1H 了。 


(2) 最 优化 算法 。 最 优化 算法 旦 统计 学 中 研究 各 种 系统 最 优化 途径 的 方案 。 从 数学 
意义 上 来 讲 , 最 优化 方法 是 一 种 求 极 值 的 方法 , 即 在 一 组 约束 为 等 式 或 不 等 式 的 条 件 下 ， 
使 系统 目标 甬 数 达到 极 什 ， 即 最 大 值 或 最 小 值 。 我 们 可 以 举 一 个 便于 米 说 明 最 优化 算法 
在 迎 辑 回归 中 的 作用 ， 还 是 以 逻辑 回归 章 玫 开 遍 的 那个 二 维 数据 分 类 的 例子 来 讲 。 我 们 
有 圆 形 和 方形 两 组 数据 ， 什 么 样 的 线性 模型 才能 更 好 地 对 两 组 数据 进行 分 类 呢 ? 需要 分 
类 和 直线 尽 可 能 地 区 分 不同 的 数据 集 , EA Ee Mal), 下 面 征 为 一 种 类 别 。 如 图 5-12 
所 示 ， 中 间 那 条 直线 显然 是 我 们 需要 的 效 来 ， 节 优化 算法 在 逻辑 回归 中 的 作用 浆 是 计算 
出 这 条 直线 。 









































X 


5-12 二 维 数据 分 类 示例 





有 多 种 最 优化 算法 都 适用 于 思 辑 回归 ， 策 多 的 如 蛋 度 下 降 法 或 者 定 Newton 法 。 这 里 
选用 梯度 下 降 方 读 进 行 介绍 。 





梯度 下 降 法 〈Gradient Descent )， 是 利用 一 阶梯 度 信 息 找 到 负数 局 部 最 优 解 的 一 种 方 
法 ， 是 机 名 学 习 算 法 中 闻 用 的 一 种 取 优 化 解法 。 椰 度 下 降 法 的 思路 很 简单 ， 承 是 每 一 步 都 
癌 最 终 的 结 末 前 进 一 点 ， 通 过 友人 代 的 方式 计算 直到 收敛 ， 得 到 最 优 解 。 梯 度 下 降 法 有 点 像 
ELPA, 一 步 一 步 通 近 终 点 , 在 维基 百科 上 有 有 一 张 图 可 以 清楚 地 表示 这 个 方法 的 思想 ， 
































78 | 第 5 章 
机 器 学 习 算 法 一 一 常规 算法 


如 图 5-13 所 示 。 a 


梯度 下 降 的 实现 方式 有 很 多 ， 而 且 包 含 很 多 衍 FE ~ 
生 方式 ， 这 里 以 最 基础 的 版 本 来 介绍 。 我 们 要 求 的 MMW 
最 终 模 型 实际 上 是 一 个 向 量 ， 向 量 的 长 度 眼 数据 的 “| | |/ / /一 \ | 
笠 征 数 是 一 臻 的 ， 可 以 把 这 个 向 量 用 Wi 来 表示 ,+ | | | | 
是 一 个 变量 ， 表 示 的 是 梯度 下 降 法 迭代 的 次 数 。 通 | \ \\ 
常 可 以 把 原始 的 特征 系数 向 量 , 也 就 是 Wo 设置 成 初 人 
始 值 全 是 1 ， 初 始 特 征 系数 向 量 可 以 表示 为 
Wo=(1,1,1,…,1)。 























这 里 还 要 设置 一 个 步 长 6 和 收敛 条 件 , 步 长 是 指 
梯度 下 降 法 每 次 学 习 的 速率 , 残 相当 于 息 山 中 每 步 的 
跨度 。 如 琳 步 长 太 长 ,在 训练 过 程 中 可 能 一 下 子 就 过 了 最 合适 的 点 ， 失 去 了 最 优 解 ; 如 来 
步 长 太 短 ， 则 会 发 现 达 到 终点 的 速率 会 非常 慢 ， 容 易 造 成 过 拟 合 。 收 全 Q 条 件 比 较 好 理解 ， 束 
是 设置 一 个 条 件 来 判断 什么 情况 下 达到 了 最 优 解 ， 失 去 这 个 收敛 条 件 后 函数 束 会 一 直 和 迭代 ， 
没有 终点 。 例 如 ， 设 m 征 判断 收敛 条 件 的 国 值 ，m 一 般 是 一 个 比较 小 的 数值 (根据 实际 要 
KIE ), 通 弟 的 判定 方法 古 通 过 Wie 和 WAIST, MRI WaW: AEE <m, 
束 判 定 迭 代 到 第 上 次 的 时 候 已 经 是 最 优 解 ， 可 以 保 止 计算 了 ， 人 好: 束 是 我 们 要 的 值 。 其 实 对 
算法 终结 点 的 限制 还 可 以 通过 限制 迭代 次 数 来 做 , 具体 选用 何 种 方式 束 需 要 根据 其 体 的 需 
求 来 判断 。 榜 度 下 降 的 公式 为 


5-13 梯度 下 降 法 







































































Waa =W, — Ox XT xerror 








HrB, 0 FETA TPA INR AA, X AON VARRER, error 表示 
PEG CIE E T MBPT EA BEB BES EEE TRAIN TEIL 








e 上 自 先 看 下 训练 数据 。 这 是 一 个 包含 3 组 输入 数据 的 矩阵 ,其 中 矩阵 的 前 3 个 字段 是 
特征 列 ， 第 4 个 字段 是 目标 列 。 


7 3 5 1 
6 6 7 0 
2 2.7 d 


e 设置 0 的 数值 为 0.001， 作 为 每 次 迭代 的 步 长 。 








e X 表示 输入 特征 惩 阵 的 转 曾 ， 特 征 和 窍 阵 X 可 以 表示 为 


5.1 分 类 算法 79 


Ww ON N 
N DN t2 
~ N &A 











转 置 之 后 ， 行 和 列 位 置 对 调 ，X' 为 
763 


3.6 2 
5. 7 7 


e 下 面 计算 error, error 表示 的 是 每 一 次 迭代 计算 的 梯度 ， 计 算 公式 为 
error=Y-Sigmoid(XW;) 
7 表示 的 是 目标 列 ， 在 本 例 中 是 指向 量 

















0 

1 
Sigmoid(XW)) 是 把 第 上 次 的 模型 权重 和 特征 乍 阵 的 乘积 带 入 Sigmoid 国 数 计 算 ， 在 本 案例 
中 设 W.=(1,1,1), Sigmoid(XW)IlJ TT $577 RA 





l 
1+ e UX7+1x3+1x5) 


. ° — ] 
Sigmoid(XW, )= Ta e (6 x6HIxT) 


l 
1+ e (ix3+1x2+1x7) 


。 WAV EXIST =W, -Ox X! xerror ， 表 到 达到 收敛 条 件 即 可 。 
(3) Tini. 


通过 Sigmoid 国 数 以 及 最 优化 算法 可 以 得 到 一 个 模型 ， 下 面 通过 举例 说 明 如 何 通过 这 
个 模型 进行 预测 。 假 设 最 终生 成 的 模型 碎 , —(0.1,0.2,0.3) ， 荫 数 项 C=0.18， 当 我 们 有 一 条 
预测 集 数 据 为 A=(5,6,7) 时 ， 该 如 何 对 A 进行 预测 呢 ” 预 测 函 效 式 为 


1 


— (Wy xx ^ wy xx +m xx Hy xx4 4C) 








PE 


把 4 和 WAAL, y 的 计算 公式 变 为 
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1 


= 1+ @ (0-1x5+0.2x6+0.3x7+0.18) 


其 中 , yat Sigmoid pA APR Ze [0,1] p TR] HR, TOUSEN en a sc T MEL Z=0.5. $4 
yasZ HT, WE A ATONE RKO; 24 yy>Z 时 ,A 的 预测 结束 为 1。 这 样 整个 逻辑 回归 的 
预测 过 程 束 完成 了 。 


以 上 通过 介绍 Sigmoid 函数 、 樟 度 下 降 以 及 村 型 预测 介绍 了 你 个 逻辑 回归 算法 的 推导 
病程 。 这 里 还 需要 蝇 调 一 个 机 带 学 习 的 线性 算法 中 经 前 会 发 生 的 问题 ， 束 是 过 拟 合 问题 。 
在 线性 回归 算法 中 ,往往 可 能 会 出 现 线性 模型 过 拟 合 训练 数据 的 情况 。 如 末 训 练 中 出 现 过 
拟 合 问题 ， 表 现 的 特性 是 针对 训练 数据 的 预测 结 末 会 非常 理想 ， 但 是 针对 其 他 的 数据 ， 效 
朱 束 会 差 很 多 。 过 拟 合 问 题 的 出 现 通 前 是 因为 训练 的 特征 量 过 多 ,可 以 通过 适当 减少 特征 
来 解决 这 样 的 问题 , 也 可 以 通过 L1 范 数 正则 化 和 L2 汇 数 正则 化 等 方法 来 防止 过 拟 合 的 问 
题 发 生 。 在 逻辑 回归 的 模型 训练 过 程 中 一 定 要 注意 幸免 过 拟 合 现象 的 发 生 。 具 体 介 绍 主见 
第 1 革 关 于 过 拟 合 的 介绍 。 


VA 
























































3. 工程 实现 


通过 Python 的 numpy 库 来 实现 逻辑 回归 算法 ， 以 下 分 别 是 sigmoid 和 梯度 下 降 方法 
的 实现 。 








Sigmoid PACHUCA F o 


def sigmoid(x): 


return 1.0/(1+expP (-x)) 
梯度 下 降 函 数 gradAscent 的 实现 如 下 。 


def gradAscent(dataMat, classLabel,alpha,maxCycles): 


dataMatrix - mat(dataMat) 


labelMat = mat(classLabel).transpose() 
m,n = shape (dataMatrix) 
weights = ones((n,1)) 


for 1 in range(maxCycles): 


h = sigmoid(dataMatrix*weights) 
error = (labelMat - h) 
weights = weights + alpha * dataMatrix.transpose()* error 


return weights 


e 4 个 入 人 参 从 左 到 右 分 别 是 特征 窍 阵 刘 、 目 标 询 、 步 长 和 循环 次 数 。 


e error ETT PAK. 





e weights 是 阴 终 的 生成 醒 型 。 


以 上 介绍 了 丈 辑 回归 的 基本 原理 、 算 法 推 寻 以 及 工程 上 的 实现 ,其 实 逻辑 回归 自 法 的 
运用 是 非常 广泛 的 , 特别 是 在 天 气 预测 和 广告 推 荐 等 行业 , 而 且 远 辑 回 归 的 变种 也 非 第 多 ， 
最 终 的 最 优化 算法 也 有 很 多 选择 。 所 以 想 真 正 地 了 解 并 日 熟练 使 用 逻辑 回归 算法 需要 阅读 
大 量 的 文献 ， 了 解 各 种 变型 情况 之 间 的 差 开 。 本 文 只 是 一 个 引导 性 的 介绍 ,而 望 各 位 读者 
有 兴趣 可 以 多 阅读 相关 源 介 和 论文 。 





















































5.1.4 ”支持 癌 量 机 


1. 基础 概要 


LIFAN. (Support Vector Machine, SVM ) 是 一 种 有 监督 的 分 类 算法 ， 通 过 探求 风 
险 最 小 来 提高 学 习 机 的 泛 化 能 力 ， 实 现 经 验 风 险 和 
置信 度 范围 的 最 小 化 。 通 俗 来 说 就 是 找到 能 区 分 特 
征 空间 最 大 间隔 的 分 类 融 ， 把 问题 转化 成 一 个 凸 二 
次 规划 问题 的 求解 。SVM 的 原理 听 上 去 可 能 比较 难 
以 理解 ， 首 先 通过 对 文 持 向 量 机 的 名 字 进 行 拆 解 ， 
详细 介绍 一 下 它 的 具体 算法 概念 ， 如 图 5-14 所 示 。 


以 二 维 效 据 为 例 ， 我们 看 图 5-14 的 这 组 数据 中 ， 
实心 和 空心 的 两 组 数据 可 以 通过 一 条 直线 进行 分 
类 。 这 条 用 于 分 类 的 直线 束 叫 作 分 类 机 。 这 个 分 类 


HUE STF IAAL “AL” EX, PTA 





















































了 解 什么 是 支持 向 量 ， 我 们 看 到 在 二 分 类 的 这 条 线 图 5-14 支持 内 量 
上 下 ,都 有 每 个 类 别 跟 分 类 器 间隔 最 近 的 一 些 点 ， 这 些 点 被 标记 出 来 。 如 果 这 些 点 的 位 置 











RE T AR. 那么 分 类 机 的 位 首 也 相应 地 会 发 生变 化 , 也 束 是 说 这 些 间 隔 点 文 持 了 分 类 机 ， 
这 些 间 隔 点 束 是 “ 文 持 向 量 "。 到 了 这 一 步 ， 我 们 通过 名 字 已 经 知道 了 这 个 算法 的 组 成 和 
含义 ， 就 是 文 持 癌 量 和 分 类 机 。 下 面 只 要 你 证 每 一 个 类 别 的 这 些 文 持 癌 量 跟 分 类 机 的 几何 
距离 最 大 ， 束 可 以 你 证 分 类 的 准确 上 度 。 


下 面 介绍 支持 问 量 机 的 分 类 ， 文 持 问 量 机 可 以 分 为 两 种 : 一 种 是 线性 支持 向 量 机 
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( Linear Support Vector Machine ), 男 外 一 种 是 非 线 性 支持 向 量 机 (Non-linear Support Vector 
Machine )。 线 性 文 持 向 量 机 主要 是 解决 的 线性 可 分 的 场景 ,与 之 前 介绍 的 逻辑 回归 的 实现 
场景 是 一 样 的 ， 线 性 可 分 表示 的 是 通过 一 条 线 可 以 进行 分 类 的 场景 ， 如 图 5-15 所 示 。 

















图 5-15 线性 可 分 示意 
线性 可 分 又 分 为 近似 线性 可 分 和 绝对 线性 可 分 , 绝对 线性 可 分 就 是 一 条 线 可 以 完全 把 
数据 进行 分 类 。 近 似 可 分 需要 借助 软 间 隅 最 大 化 的 方法 ， 学习 出 一 个 线性 的 分 类 器 。 下 面 
来 看 下 非 线 性 可 分 的 场景 ， 5-16 是 典型 的 线性 不 可 分 场景 。 
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图 5-16 线性 不 可 分 


在 这 个 二 维 空 间 中 有 两 种 数据 集 ， 分 别 用 圆 辫 和 又 来 表示 ,我 们 无 法 通过 丝 米 把 这 两 
































数 的 方法 先 将 数据 映射 到 高 维度 空间 中 去 ， 然 后 在 更 高 的 维度 中 把 数据 进行 分 类 ， 这 里 借 
用 图 5-17 来 表示 。 












feature >a 


map 





complex in low dimensions simple in higher dimensions 


图 5-17 维度 映射 





图 5-17 中 左 半 边 表 示 的 是 在 低 维度 空间 里 很 难 进行 分 类 的 一 组 数据 , ARA RA 
把 数据 映射 到 高 维度 时 《该 图 中 是 将 二 维 空间 数据 映射 到 三 维 空间 上 )， 束 可 以 通过 一 个 
超 平 面 对 数 据 进行 分 类 。 这 里 涉及 空间 维度 转化 的 理论 ， 以 及 平衡 分 类 效 末 和 首 信 度 的 软 
TRIB AER HS 

以 上 介绍 了 支持 向 量 机 的 基本 概念 和 分 类 ， 下 面谈 一 下 这 个 算法 的 一 些 特性 。 

1) SVM 的 理论 比较 新 颖 的 地 方 在 于 它 征 一 种 基于 小 样本 学 习 的 算法 ,在 SVM 算法 
中 ,我 们 的 核心 点 是 通过 找到 文 持 癌 量 来 进行 分 类 ,， 跟 传统 的 锡 辑 回归 算法 这 种 利用 历史 
全 样本 经 验 来 归纳 演绎 的 思想 有 所 不 同 。 

2) SVM 在 分 类 的 时 低 引 入 了 最 大 边界 的 思想 ， 这 个 也 比较 好 理解 ， 当 确定 了 文 持 辣 量 
后 ， 只 需要 找到 一 个 超 半 看 使 得 正人 负 两 类 的 支持 辣 量 到 这 个 六 和 面 的 距离 最 大 好 可 。 

3) SVM 还 提供 了 一 种 处 理 非 线性 可 分 场景 的 思路 ， 融 是 将 低 维 数据 映射 到 局 维 空间 
去 求解 的 万 法 ， 并 且 已 经 丛生 出 多 种 核 国 效 算 法 米 文 撑 这 种 思想 。 

4) SVM 的 了 最终 分 类 效 朱 实际 上 和 是 通过 少数 的 文 持 癌 量 来 决定 的 ， 这 束 给 模型 本 号 市 
来 了 很 大 的 鲁 棒 性 ， 如 末 只 是 增删 数据 过 中 的 数据 而 没有 水 及 文 持 癌 量 ， 那 么 分 类 豆 对 这 
种 改变 并 不 敏感 。 

5) SVM 的 缺陷 融 是 对 多 分 类 问题 的 处 理 上 不 如 逻辑 回归 或 者 树 状 结构 的 算法 那样 灵 
ih, SVM 主要 还 是 处 理 有 监 千 的 二 分 类 场景 的 问题 。 
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2. 算法 推导 

以 上 介绍 了 文 持 向 量 机 的 一 些 概念 和 特性 ， 已 经 明确 了 SVM 的 几 个 概念 : 文 持 向 量 、 
分 类 超 平 面 、 文 持 癌 量 要 与 分 类 超 平 面 的 距离 最 大 。 下 面 通过 拆 解 上 面 的 这 几 个 概念 来 其 
体 看 一 下 SVM 的 公式 推导 过 程 〈 这 里 通过 线性 文 持 向 量 机 在 二 维 空间 的 分 类 来 举例 )。 


(1) 几何 超 平 面 概念 。 我 们 可 以 设 超 平 面 方 程 为 
































wx+b=0 


HHE, wH be A, weenie AA CA EE AT) LA, FEEL 
PAF TIN ERA AAR TAL EN AFANANE, 在 空间 中 可 以 用 来 确定 平面 倾斜 的 角度 )， 
bone nuh, 我们 只 要 确定 了 ww 和 的 值 ， 束 得 到 了 对 数据 可 以 进行 二 分 类 的 几何 超 
平面。 


(2) 几何 间隔。 假设 我 们 有 一 组 数据 集 T2[Guy Go 06,3 Gy). cc). FEI ES 
习 场 景 下 ， 其 中 x 表示 的 是 特征 向 量 ，y 表示 的 是 目标 值 ，y 的 取 值 有 两 种 {-1，+1} (这 
里 为 什么 是 +1 和 -1, 而 不 用 0 和 1 来 打 标 , 下 面 通过 推导 可 以 看 到 这 样 的 打 标 更 容易 通过 
求 点 到 平面 的 距离 来 进行 分 类 )。 假 设 已 经 确定 了 分 类 超 平 面 为 (wb )。 那 么 数据 点 工 到 
AFE (wb) HERES A 


















































D=yn(w X x+b) 
通过 几何 间隔 D( 见 图 5-18 ) 可 以 确定 文 持 向 量 到 超 平 面 的 距离 , 保证 分 隔 距离 最 大 ， 
从 而 惑 硝 定 了 超 平 面 的 参数 (wb )。 


8 

















5-18 几何 间隔 


5-18 表示 的 是 一 个 点 到 平面 (wb ) 的 几何 间隔 D。 通 过 图 5-18 也 可 以 看 出 ， 对 于 
一 组 数据 ,， 它 的 最 优 分 隔 超 平 面 有 且 只 有 一 个 。 同 时 , 因为 数据 的 目标 值 久 的 值 是 通过 +1 
和 -1 的 正 负 号 区 分 ， 入 决定 了 几何 间隔 D 的 系数 符号 ， 在 计算 结 来 的 时 候 会 方便 对 数据 
进行 预测 ， 因 为 可 以 把 间隔 距离 是 正 数 的 归 为 一 类 ， 间 隅 距离 为 负数 的 古 力 外 一 类 ,而 且 
间隔 距离 越 大 说 明 症 信和 度 越 局 。 所 以 在 实际 的 预测 过 程 中 ,我 们 只 需要 计算 每 个 点 的 特征 
问 量 与 分 隔 几 何 超 平 面 的 距离 项 可 以 得 到 这 个 点 的 分 类 以 及 相关 的 程度 。 


(3) 文 持 问 量 求解 。 了 解 了 几何 超 平面 以 及 几何 间隔 的 求解 方法 之 后 ， 接 下 来 藉 剩 同 
量 机 的 解法 了 ,这 一 部 分 也 古文 持 向 量 机 最 难 理解 的 一 部 分 。 这 里 要 引入 拉 格 明日 商 数 和 
HAS BH ABET ASB. ABH ABR PETE RARE POM, Æ SVM 的 问题 中 
可 以 理解 成 通过 数据 点 找到 支持 疝 量 和 分 隅 超 六 面 ， 而 这 两 项 都 受 一 些 条 件 约束 ， 如 要 确 
定 支 持 向 量 和 分 隅 六 面 的 距离 最 大 。 具 体 的 拉 格 明日 商 数 式 为 


] N N 
L- Piu -X ay, (wx, +b)+ 》 a, 

n-l n-l 
FH, an EDU EH ARS, a0. Cw, b) HIST SERV TEL, xs EAB EVAR TIE 
数据 ,ys 是 训练 集 的 目标 值 。 把 数据 市 入 后 可 以 用 求 二 次 偏 寻 的 万 法 对 最 优化 问题 求 极 值 。 
因为 这 是 在 SVM 中 ， 存 在 正 负 样本 对 侦 性 的 问题 ， 有 两 步 优 化 解法 : 

N 
w= 》 ApYnXn 
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N 
bo y, — > ,an (x x ) 
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其 实 通过 拉 格 明日 乘 子 的 算法 ， 束 可 以 通过 求 极 值 的 方法 直接 求 得 文 持 癌 量 是 哪些 
RAS Oo bee FTE wb) 参数 的 具体 的 值 定 什么 。 


3. 工程 实现 

以 上 介绍 的 是 文 持 向 量 机 的 基本 概念 和 算法 的 公式 推导 ， 下 面 介 绍 SVM 在 工程 上 的 
实现 ， 因 为 SVM 的 代码 实现 起 来 比较 复杂 ， 这 里 介绍 一 下 SVM 最 兰 名 的 开源 库 LIBSVM 
以 及 其 在 Python 环境 下 的 使 用 方法 。 


LIBSVM 是 台湾 大 学 林 知 仁 教 授 等 人 开发 的 一 个 刹 蛙 .易于 使 用 和 快速 有 效 的 SVM Tx 
式 识 别 与 回归 的 软件 包 ， 提 供 了 全 套 的 源 代 但， 而 且 可 以 在 Windows、Linux、Mac OS 这 
儿 种 系统 下 运行 ， 日 前 LIBSVM 还 拥有 C. Java, Matlab, C£, Ruby, Python 等 数 十 种 语 
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言 的 版 本 ，LIBSVM 是 文 持 癌 量 机 在 开源 领域 比较 权威 的 一 称 工 具 包 。 筷 网 地 址 是 


http://www.csie.ntu.edu.tw/ ~ cjlin/libsvm/。 
(1) 环境 配置 。 本 文 以 系统 Mac OS 10.11，Python2.7 作为 实验 环境 。 
首先 下 载 并 且 解 压 LIBSVM 的 源码 包 ， 并 且 在 包 的 根 目 录 下 编译 。 


Ss tar xzrv libsvm-3.17.tar.gz 
$ cd libsvm-3.17 


S make 














Anu Python 调用 的 话 , 用 户 还 需要 到 目录 下 面 的 Python 目录 中 , HAR) make 
编 幸 一 下 。 





(2) 代码 解析 。 进 入 Python 目录 后 ， 用 户 可 以 看 到 svm.py 和 svmutil.py 两 个 文件 。 
这 两 个 文件 是 支持 向 量 机 算法 的 Python 实现 ,代码 写 的 很 简练 而 且 性 能 非常 高 。 以 下 是 
几 个 关键 的 函数 。 














e svm train(): 训练 SVM 模型 。 


e svm predict() : 对 数据 做 预测 。 





e svm read problem(): is LIBSVM 格式 的 数据 。 
e svm load model(: 读 取 模型 。 

e svm_save_model(): 存 模型 。 

e evaluations(): 结果 评估 。 


(3) 实验 。 调 用 LIBSVM 库 来 实现 一 个 案例 ， 首 先 震 要 介绍 的 束 是 LIBSVM 的 数据 格 
式 跟 之 前 算法 使 用 的 数据 格式 不 同 ， 是 通过 : v 这 样 的 形式 表示 的 。 我 们 先 来 看 数据 截 
图 如 图 5-19 所 示 。 

















-1 3: 1 € 1-14:1-19:1-39:1-42:21-55:1-64:1-67:1-73:1-75:1- 76:1 00: 1-83:1 
d. al x 1 As 1 2 1 xi 1 x: 1 5 1 eds 1 Ls 2: 1l 


:1 42: 1 49: 1 64: l 67: 1 72: 
:1.42:1.53:1 64:1 67:1 73: 
:1.42:1.48:1 64:1 71:1 73: i 74: 1-76: 
32: - 39: B 40:1 52: B 63: 1 67: 1 73: E 74: 1 76: 1 78: 1 


图 5-19 LIBSVM 数据 截图 
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第 一 多 是 目标 列 ， 通 过 +1 和 -1 表示 正 反 两 种 对 象 。 除 了 第 一 列 都 是 训练 数据 ， 数 据 之 
间 用 空格 隔 开 ， 通 过 ks v KER, k 是 索引 (第 儿 列 ), v ZORA RAGE, WR v 0 的 
话 可 以 不 连续 ， 这 是 一 种 壬 蕊 数据 的 表现 方式 。LIBSVM 的 数据 格式 可 以 通过 脚本 生成 ,也 
可 以 通过 链接 https://www.csie.ntu.edu.tw/ ~ cjlin/libsvmtools/datasets/ 直 接 下 载 一 些 样 例 数 据 。 














下 面 介绍 LIBSVM 的 调用 。 


from svmutil import * 


y, X = svm read problem('ala.txt") 
yt, XL = svm read problem('ala;.t.txtc"') 
m = svm trainl(y, X ) 


svm predict(yt,xt,m) 


通过 对 ala.txt 数据 进行 训练 ， 对 ala.t.txt 进行 预测 ， 输 出 结果 如 图 5-20 所 示 。 


米 

optimization finished, #iter = 537 
nu = 0.460270 

obj = -673.031415, rho = 0.628337 


nSV = 754, nBSV = 722 

Total nSV - 754 

Accuracy = 83.5864% (25875/30956) (classification) 
[Finished in 4.6s] 





5-20 结果 展示 


通过 上 面 的 结果 展示 可 以 了 解 到 ， 我 们 通过 SVM 算法 包 生 成 了 模型 ， 并 量 对 预测 集 
进行 了 了 预测， 最终 准确 率 达 到 83.5864%。 如 采 想 许 细 地 了 解 SVM 算法 ， 建 议 目 己 试验 一 
下 ， 如 末 能 推 一 遍 算 法 的 源 代 码 那 就 更 好 了 。 


SVM 一 直 以 民 好 的 分 类 效 末 闭 称 ,通过 问 量 机 进行 分 类 以 及 把 低 维 数据 映射 到 局 维 的 
思路 体现 了 SVM 的 独特 性 ,也 让 SVM 成 为 每 个 算法 研究 痢 的 必修 读 。 本 下 只 是 对 SVM 的 
理论 和 推导 进行 了 最 基础 的 介绍 ， 因 为 SVM 的 算法 是 一 个 非常 复杂 的 逻辑 ， 所 以 如 果 想 
完全 理解 SVM 需要 花费 非 遂 多 的 时 间 。 在 工程 实现 部 分 使 用 的 LIBSVM JP BIA aE 
第 出 色 的 开源 项 目 ， 也 是 一 个 非 攻 好 的 学 习 工 具 ， 如 采 有 对 SVM 非 剃 感 兴趣 的 同学 ， 建 
DUM LIBSVM 项 目 学 起 。 






































5.1.5 随机 和 森林 


51 节 主 要 介绍 的 是 分 类 场景 的 算法 ， 通 过 之 前 的 分 类 算法 介绍 ， 仿 佛 每 个 分 类 算法 
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模型 都 尽 一 个 神通 三 大 的 分 类 专家 ， 可 以 精准 地 区 分 每 个 对 家 的 归属 类 别 。 有 了 时候 笔者 在 
想 , 如 末 没 有 这 种 分 类 大 师 怎 么 办 ? 可 不 可 以 只 通过 几 个 分 类 小 日 的 桶 思 广 议 玫 我 来 做 判 
IE? AW TEM “=D, Tita”, Xa ERROR bc A, 
BEN LER AKA VAR DE LS 552d 2e n AR ORS PHA, CAS 18 BBC VE BI RAR. 
BENT ets NAE, Ee SAA S BRAK e 





























1. 基础 概要 


oA LARK ( Random Forests, RF), 是 1995 年 贝尔 实验 罕 Tin Kam Ho 创立 的 一 种 由 多 
个 决 委 树 组 成 的 分 类 融 ， 是 一 种 监督 学 习 算 法 。 随 机 森林 刚 一 提出 ， 很 快 融 在 业内 引起 了 
比较 大 的 天 注 度 ， 因 为 随机 和 森林 对 分 类 问题 有 关 非 党 好 的 效率 和 精确 上 度 。 随 机 和 森林 由 许多 
决 案 树 组 成 ， 每 个 决 案 树 都 是 一 个 弱 分 类 豆 ， 最 终 的 结 采 由 这 些 弱 分 类 带 投 票 决 定 。 


首先 我 们 来 认识 一 下 决策 树 ( Decision Tree ), 决策 树 是 一 种 十 分 常见 的 监督 学 习 方法 ， 
决策 树 呈 树 形 结 构 ， 每 一 个 市 点 都 表示 一 个 属性 (市 点 束 是 特征 )， 每 一 个 分 文 代表 着 一 
种 输出 ， 最 终 的 叶 节 点 表示 的 是 类 别 。 下 面 通过 一 个 例子 看 一 下 决策 树 是 如 何 构建 的 。 我 
们 有 一 组 数据 ， 这 组 数据 包含 了 每 个 男士 的 一 些 特征 ， 这 些 特 征 包括 身高 、 是 否 有 车 、 是 
否 有 房 ， 以 及 他 们 是 否 得 到 了 心仪 的 女士 的 约会 机 会 。 我 们 就 可 以 通过 上 面 的 这 个 数据 集 
进行 训练 ， 生 成 一 个 决策 树 模 型 用 来 预测 (“号 高 175%”“ 有 人 车”“ 没 房 ”) 的 男士 是 否 有 约会 
机 会 。 我 们 通过 历史 数据 训练 可 以 生成 以 下 的 这 个 分 类 模型 ( 见 图 5-21 )。 

























































































5-21 决策 树 示例 





这 是 一 个 典型 的 树 状 模型 ， 在 这 个 模型 中 椭圆 形 的 市 点 表示 特征 ， 模 型 训练 过 程 中 通 
过 对 象 数据 是 侣 补足 特征 条 件 ， 引 导 最 终 的 分 类 走向 是 往 左 了 于 时 走 还 是 右 子 时 走 ,， 我们 看 





























到 每 一 个 市 点 都 会 做 一 次 强制 二 分 类 的 操作 ， 长 方形 的 于 时代 表 分 类 结 来 。 
AN 


下 面 介 绍 如 何 通过 决策 树 来 对 (号 高 175”“ 有 车 *"“ 没 房 ”) 的 男士 是 否 有 机 会 约会 来 
BET HUM. ASA CULES] 5-22 )。 








图 5-22 第 一 节点 示例 











通过 树 状 模型 可 以 看 出 ， 如 果 身 高 超过 180cm， 就 会 走向 左 分 支 ， kIOER x. E 
们 的 预测 对 象 的 喘 高 是 175cm， 所 以 要 走 右 分 双 。 接 看 判断 是 侍 有 车 ， 了 预测 对 象 数据 中 显 
AN REA EY, 所 以 在 树 状 模型 的 第 二 个 市 点 处 直接 走 左 分 文 并 且 得 到 结论 。 于 是 通过 
模型 束 成 功 的 对 样 例 数据 C" Eres 175”“ 有 车 ”“ 没 房 ”) BEAT SUN, mA EIN ETH 
济 对 象 可 以 得 到 约会 机 会 。 


以 上 简单 介绍 了 如 何 通 过 决策 树 进行 预测 , 决策 树 通 浓 都 是 由 二 叉 树 或 者 多 又 树 组 成 
(二 分 类 问题 多 用 二 又 树 ), 其 实 通过 上 面 的 例子 我 们 也 可 以 推 产 出 来 越 先 分 裂 的 特征 节点 
对 决定 结果 的 话语 权 束 越 大 (通过 上 面 的 模型 其 实 可 以 看 出 来 ,“ 壬 高 是 否 180” 对 结果 的 
影响 是 大 于 “是 否 有 房 ” 这 个 特征 ， 因 为 “里 高 是 人 否 180” 这 个 特征 率先 出 现 并 对 结果 产 

影响 )。 那 么 我 们 该 把 哪些 特征 排 在 树 的 顶端 ， 哪 些 特征 排 在 树 的 下 方 呢 ?” 这 个 取决 于 
每 个 特征 与 目标 队列 之 间 的 信息 增益 大 小 的 计算 。 根 据 特征 的 分 裂 方 式 不 同 ,决策 树 也 被 
分 为 ID3、C4.5 和 C5.0 等 多 个 不 同 的 种 类 (这 三 种 决策 树 的 有 具体 区 别 , 可 以 通过 查阅 论文 
Za S 


fr SERRA PROM, PEE SEEM Za, OP EDUC RIT VATEREDOSE T: BE UG 
AIST. BEA LARP Ee HR e BOE REL, HERR RSL, 3E 
MR ERE POT Rad RAER (WE 5-23 )。 
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图 5-23 随机 森林 
这 里 有 以 下 几 个 地 方 需要 注意 。 
e 首先 ， 每 个 决策 树 的 特征 选取 是 通过 抽样 生成 鸭 。 例 如 训练 集 一 共有 M 个 特征 ， 
那么 每 次 有 放 回 地 抽取 m 个 特征 作为 决策 树 的 训练 特征 集 ， 并 且 m<M。 
e 每 棵 树 的 训练 数据 也 是 抽样 生成 的 ， 如 果 训 练 集 有 NN 个 训练 数据 ， 那 么 每 棵 树 在 
训练 模型 的 时 候 会 抽样 n 个 样 例 数 据 进 行 训练 ， 这 个 抽样 是 有 放 回 的 抽样 。 
e 决策 树 一 般 都 选用 二 叉 决 策 树 ,最 终 的 结果 通过 所 有 的 决策 树 投票 来 决定 。 投票 的 
方式 有 很 多 种 ,通常 可 以 通过 比 对 不 同 分 类 结果 的 树 的 数量 , 选取 数量 多 的 一 方 作 
为 最 终 的 分 类 结果 。 
以 上 是 对 随机 森林 的 一 个 基础 概要 的 介绍 ,随机 森林 通过 对 特征 和 和 训练 样本 的 随机 
采样 训练 ， 生 成 多 个 决策 树 模型 从 而 实现 预测 ， 充 分 诠释 了 机 器 学 习 分 类 领域 里 的 “多 个 
AU. BUR. 






































2. 算法 推导 

这 一 部 分 将 通过 一 个 实际 的 案例 讲解 随机 森林 是 如 何 进 行 模 型 训练 并 且 实 现 预 刷 。 假 
设 我 们 有 一 组 数据 集 表 示 一 个 贷款 用 户 的 特征 ， 它 由 9 个 特征 、1 个 目标 值 组 成 ， 这 份 训 
练 集 一 共有 10000 条 数据 ， 现 在 要 通过 随机 森林 预测 这 个 用 户 是 否 有 还 贷 能 力 。 和 截取 的 部 
分 数据 如 表 5-3 所 示 。 














表 5-3 ”贷款 用 亡 数 据 集 


ID 贷款 金 | 工作 | 是 否 
额 /万 年 限 | 已 婚 





5.1 分 类 算法 





K 5-3 是 案例 数据 ， 第 一 列 “ID” 表 示 每 个 用 户 的 主键 ， 主 键 是 用 户 的 唯一 标识 ， 第 
2~ 10 个 字段 表示 特征 ， 最 后 一 个 “有 是否 还 区 ”为 目标 队列 〈 随机 和 森林 二 监督 学 习 方法 ， 
依赖 打 标 数据 Jo 通过 训练 这 10000 条 数据 生成 模型 , 我 们 要 预测 表 5-4 中 这 名 借贷 人 是 合 
HYSSKBE 7] o 











R 5-4 预测 人 员 数 据 





下 面 介 绍 具体 的 推导 步 又 。 


(1) 抽取 特征 。 上 面 的 这 组 数据 有 9 个 特征 ,我们 需要 有 放 回 地 抽取 特征 来 构建 每 颗 
树 的 特征 组 ， 每 个 树 的 特征 数 是 可 以 目 定 义 的 ,假设 定 义 每 棵 树 的 特征 数 是 sqrt(9) (sqrt 
表示 平方 根 )， 也 就 是 每 棵 树 有 3 个 特征 ， 一 共有 3 棵 树 。 特 征 抽取 采用 随机 采样 的 方法 ， 
假设 构成 的 3 柠 树 的 特征 分 别 如 下 。 

e cart 树 1: (FR, “工作 年 限 ?“ 体 重 ”)。 

e cart 树 2: (SERA EWA “SEEKER” o 

e cart 树 3: (ERAS, “是 否 有 孩子” EI UB"). 

(2) 构建 决策 树 。 我 们 从 10000 份 训练 数据 中 有 放 回 地 随机 采样 3 次 ， 每 次 采 


FÉ 5000 份 数据 ， 构 成 3 株 决 策 树 的 训练 数据 。 有 具体 每 株 树 的 训练 过 程 在 这 里 不 详细 的 介 
绍 〈《 可 以 查看 cart 树 相 天 论文 )， 假 设 最 终生 成 的 3 BRE SUA 5-24 所 示 的 结构 。 





























5-24 随机 森林 组 成 


假设 每 哥 树 的 预测 概率 结果 见 表 5-5 ~ 表 5-7。 
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表 5-5 Cart 树 1 

Cart 树 1 组 成 预测 结果 (是 否 有 还 贷 能 力 ) 
体重 >=150， 年 龄 >=30 
体重 >=150， 年 龄 <30 
体重 <150， 工 作 年 限 <10 

体重 <150， 工 作 年 限 >=10 


Bm | I | DA | aim 


X 5-6 Cart tt 2 
Cart 树 2 组 成 预测 结果 (是 否 有 还 贷 能 力 ) 


年 收入 >=20， 贷 款 金额 >=$00 fj 
年 收入 >=20， 贷 款 金额 <500 是 
年 收入 <20， 是 否 有 车 >=1 是 
年 收入 <20， 是 否 有 车 <1 f 


X 5-7 Cart i 3 
Cart & 3 组 成 预测 结果 (是否 有 还 贷 能 力 》 
是 否 有 房 >=1， 是 否 有 孩子 >=1 
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表 5-8 预测 集 








K 5-8 中 预测 集 通 过 决策 树 Cartl tha PUA SAE TI “FR”, 因为 预测 对 家 的 
体重 大 于 150 厅 ， 而 且 年 龄 小 于 30 岁 ， 所 以 在 Cartl HEMER “A; 通过 Cart2 计算 
得 到 的 结 末 为 “ 古 ”"， 里 然 预 测 对 象 的 年 收入 小 于 20 万 ,但 是 因为 有 年， 所 以 通过 Cart2 t 
GAARA “ce”; 通过 Cart3 计算 得 到 的 结 末 为“ 吓 ”"， 因 为 预测 对 象 有 房 并 且 有 孩子 ， 所 
以 通过 Cart3 RARI “Se”. Ser 3 个 树 的 预测 结 末 ,有 1 个 否定 时 和 2 AI BEN. 
最终 对 上 面 的 这 个 预测 集 的 预测 结 来 是 他 具备 还 球 能 力 ， 因 为 预测 他 能 还 贫 的 决策 攀 器 多 。 





























以 上 通过 一 个 实例 讲解 了 如 何 通过 随机 森林 进行 模型 的 训练 和 预测 ,这 个 例 于 只 征 把 
大 体 框 染 通 过 最 简单 、 直 日 的 方式 进行 了 呈现 ， 如 末 想 近 高 整个 算法 的 准确 率 ， 在 预防 过 
ME CREW) 每 个 决策 树 的 预测 权重 计算 等 方面 都 需要 做 大 量 的 优化 ， 下 面 介绍 
具体 的 工程 实现 。 


























3. 工程 实现 

表面 对 随机 森林 的 基础 概念 和 算法 进行 了 介绍 ， 下 面 介 绍 如 何 通过 工程 来 实现 随机 
森林 这 个 算法 。 这 里 使 用 的 环境 是 Python2.7、Max OS 系统 ， 使 用 的 机 器 学 习 库 是 著名 
的 Sklearn, 











目前 在 Python 环境 下 好 像 没 有 能 可 视 化 显示 出 树 状 模型 的 库 ， 笔 者 一 直 硕 望 找到 如 
5-25 所 示 以 可 视 化 展现 每 个 决策 树 模 型 的 开 产 库 。 











o e E OSA) (A: 





© © 
e Ee 
CO oo 
b-25 决策 树 模型 可 视 化 展示 


其 实 如 果 可 以 把 随机 森林 中 的 每 个 决策 树 如 图 5-25 所 示 打 印 出 来 ,对 理解 算法 逻辑 和 
算法 模型 调试 都 是 非常 方便 的 。 既 然 没 有 可 视 化 的 Python 库 可 以 调用 ， 只 能 调用 Sklearn 
里 的 randomforest 黑 盒 来 介绍 。 上 有 具体 的 调用 代码 如 下 。 

















#coding=utf-8 

from sklearn.tree import DecisionTreeRegressor 
from sklearn.ensemble import RandomForestRegressor 
import numpy as np 

from sklearn.datasets import load iris 
iris=load iris () 


rf-RandomForestRegressor() 
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rf.fit(iris.data[:350],iris.target[:350]) 
instance=iris.data[50] 

print instance 

print 'prediction score:'+str(iris.target[50]) 


print ‘real score: 'tstr(rf.predict (instance) ) 








e 通过 调用 load iris) HAE FFT IRAE iris, iris H 4 个 字段 和 1 个 目标 队列 组 成 ， 
想 了 解 详细 的 数据 组 成 可 以 通过 print 函数 打印 生成 。 








e 通过 RandomForestRegressor(O) 的 fit 函数 训练 ， 储 函数 的 第 1 个 字段 存储 的 是 特征 
Al), 38 2 个 字段 存储 的 是 目标 列 。 


e 预测 集 是 iris.data[50]， 即 iris 数据 集中 的 第 51 个 数据 。 











。 最 后 通过 rfpredict(instance) 对 预测 集 进 行 预测 , 并且 把 E7. 3.2 4.7 1.41 


prediction score:1 


结果 打印 出 来 。 real score:1 


[Finished in 0.6s]| 











ES AQ PH E Xl 5. zs i 、 
最 终 的 预测 结果 如 图 5-26 PAS 5 26 ”预测 结果 截图 


在 这 个 实验 中 , 通过 调用 Sklearn 的 randomforest 算法 对 iris 数据 集训 练 , 通过 随机 和 森 
林 预 测 模 型 对 数据 (7,3.2,4.7,1.4 ) STN, Tug né]. BLA POE HA. 


随机 森林 作为 树 状 的 分 类 算法 ， 是 近年 来 比较 受 关注 的 一 种 机 器 学 习 算 法 ， 在 处 
理 大 规模 数据 方面 比较 有 优势 。 总 体 来 看 随机 森林 的 原理 较 容易 理解 ， 而 且 执行 效率 
比较 高 ， 但 是 在 实际 应 用 中 可 能 涉及 的 参数 调试 工作 量 会 比较 大 ， 如 树 的 深度 和 树 的 
树 量 等 参数 都 要 不 断 地 调试 和 实验 才能 达到 比较 理想 的 效果 。 通 过 简单 描述 随机 森林 
的 原理 、 算 法 推导 以 及 通过 Sklearn 库 进 行 实验 ,希望 可 以 帮助 读者 对 随机 森林 算法 有 
一 定 的 初步 了 解 。 
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两 部 分 , 具体 的 聚 类 原则 可 以 通过 距离 来 判断 ， 如 图 5-27 所 示 , 将 一 组 数据 在 二 维 空间 上 
分 为 两 类 。 


mk 





data$x 


5-27 聚 类 示意 











缀 类 与 分 类 看 似 都 是 将 数据 按照 一 定 标准 做 区 分 , 那 两 者 到 抵 有 什么 区 别 呢 ?分 类 一 
役 解决 的 是 有 监督 学 习 的 场景 ， 往 往 是 根据 历史 的 经 验 数据 或 者 是 打 标 好 的 数据 训练 模 
型 ， 然 后 通过 这 个 模型 对 未 知 的 数据 进行 预测 。 分 类 比较 典型 的 场景 是 疾病 的 预测 和 天 气 
预报 等 。 而 聚 类 解决 的 是 无 监督 学 习 的 场景 ， 惑 是 没有 打 标 好 的 数据 的 场景 ， 如 在 用 户 画 
像 的 时 候 ， 我 们 有 一 组 数据 表示 的 是 用 户 的 年 龄 、 收 入 和 兴趣 等 效 据 ， 这 样 殉 可 以 通过 毗 
类 算法 把 相似 度 高 的 用 户 分 到 同一 个 类 别 中 。 


聚 类 的 算法 很 多 , 根据 计算 方式 不 同 可 以 分 为 基于 距离 的 桶 类 算法 和 基于 密度 的 涌 类 
算法 。 下 面 通过 一 副 经 典 的 图 片 对 比 解释 基于 距离 涌 类 和 基于 突 度 聚 类 的 不 同 。 


如 图 5-28 所 示 为 两 个 余弦 曲线 的 点 拼接 而 成 的 图 形 。 如 末 我 们 想 把 上 面 的 这 些 点 通过 
距离 办 类 的 方式 分 为 两 类 ,需要 找到 两 个 族 ， 其 中 每 个 艇 都 有 一 个 中 心 点 ， 簇 里 的 点 到 各 
目 族 的 中 心 点 的 距离 都 小 于 到 其 他 禾 的 中 心 点 的 距离 。 图 5-28 中 通过 中 间 的 这 条 和 斜 线 将 数 
据 切 制 成 左右 两 份 。 PEAR RARE ie BE PR al ee BOA Ae eg COB 
PA Fo 


Pire IR EERE ARRAS TE. WAM EARHART, Tu 
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如 图 5-29 所 示 。 


data$y 





i dataSx 


图 5-28 基于 距离 聚 类 
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图 5-29 基于 密度 聚 类 
通过 中 间 的 直线 把 数据 点 分 为 两 部 分 , 每 个 


图 5-29 中 是 点 集合 按照 密度 分 类 的 场景 , 通 坟 
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K-means 和 DBScan Eein UAAR ZR, H K-means 是 根据 距离 聚 类 , DBScan 
是 根据 密度 聚 类 。 两 个 算法 各 有 特点 ， 下 面 详 细 地 介绍 一 下 。 





5.2.1 K-means 


K-means 是 机 器 学 习 领域 中 最 经 典 的 几 个 算法 之 一 ， 也 是 几乎 所 有 学 习 聚 类 相关 算法 
的 用 户 必 须 了 解 的 一 种 聚 类 算法 。K-means 最 大 的 特点 是 要 在 计算 之 前 确定 聚 类 答 心 数量 。 























1. 基础 概要 

K-means 是 一 种 无 监督 的 ， 基 于 距离 聚 类 的 机 需 学 习 算 法 。K-means 需要 提前 设 兽人 参 
AKE, 这 个 值 表 示 最 终 需 要 生成 天 个 复 , 也 融 是 聚 类 生成 的 类 别 数 量 。 因 为 入 参 和 算法 
的 逻辑 相对 简单 ，K-means 在 数据 挖掘 领域 有 广泛 的 应 用 。 例 如 在 用 户 男 像 领域 ， 通 过 人 
群 的 多 维 属 性 对 人 和 群 的 类 别 进行 划分 , 在 文本 分 析 中 对 生成 的 词 向 量 进 行 聚 类 可 以 挖掘 出 
相似 语义 的 词语 。 


K-means 筑 法 也 存在 一 定 的 缺陷 。 其 一 ，K-means 在 聚 类 的 过 程 中 采用 了 复杂 上 度 相 对 比较 
高 的 方法 ， 通 过 一 次 次 迭代 人 遍 历 每 个 点 到 簇 的 中 心 点 的 距离 实现 分 类 ， 同 时 在 计算 结果 的 过 
程 中 ， 任 何 一 个 点 都 会 被 分 到 一 个 类 别 当 中 ， 会 导致 噪音 点 (噪声 是 指 干扰 数据 ) 不 能 及 时 
被 排查 的 问题 。 其 二 ，K-means 需要 预 设 聚 类 的 数量 ， 但 是 在 实际 的 应 用 场景 中 ,每 组 数据 合 
适 的 聚 类 数 是 比较 难以 预先 判断 的 。 其 三 ，K-means 需要 设置 初始 质心 位 置 , 通常 初始 质心 都 
会 通过 系统 随机 来 生成 ， 这 种 初始 的 质心 位 置 会 对 最 终 的 结果 构成 一 定 影 响 。 





































































































2. 算法 推导 

前 面 介绍 了 K-means 算法 的 一 些 基 础 概念 ， 下 面 介 绍 算法 的 推导 过 程 。K-means 算法 
是 一 个 不 断 迭 代 求 向 量 距离 的 过 程 。 首 乞 我 们 来 看 下 如 何 计 算 两 点 间 的 距离 ,在 数学 方法 
中 ， 求 同 量 间 的 距离 的 方法 有 很 多 种 ， 这 里 选择 比较 常见 的 三 种 来 进行 介绍 : 欧式 距离 
( Euclidean Distance ), Sif (Manhattan Distance ) 和 夹 角 余弦 (Cosine )。 












































(1) 欧 氏 距离 。 欧 氏 距 离 是 数学 中 表示 辣 量 距离 的 最 弟 用 的 计算 方法 ,在 二 维 空间 表 
未 的 古 两 个 同 量 连 线 的 直线 长 上 度 。 二 维 空间 欧 氏 距离 的 数学 公式 为 


d= 4a —x3Y. -Q4 — y 3Y. 
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HHR, (x, y,) 和 (x, y) 是 空间 中 两 个 点 。 欧 氏 距 离 是 用 K-means 算法 求 距 离 的 最 稼 用 
方法 ， 下 文 的 距离 计算 默认 使 用 欧 氏 距离 。 


(2) 受 哈 顿 距 离 。 曼 哈 顿 距离 ( Manhattan Distance ), 义 称 为 城市 街区 距离 (City Block 
Distance )。 这 个 名 字 的 由 来 与 曼哈顿 有 关 ，, 设想 下 如 果 从 曼哈顿 的 一 个 十 字 路 口 开 车 到 男 
一 个 十 字 路 口 ， 距 离 是 两 个 十 字 路 口 的 直线 距离 吗 ? 显然 不 是 ， 实 际 距离 是 马路 的 距离 。 
我 们 还 是 通过 二 维 空间 来 举例 ， 两 点 间 的 曼哈顿 距离 公式 为 


























d = |x; — Xo Fs -= yz 

(3) RZKffo In] 53e ff (Cosine )， 癌 量 夹 角 是 用 来 衔 量 两 个 同 量 方向 的 差异 的 一 种 
计量 方式 。 二 维 空间 中 的 两 个 向 量 的 夹 角 公 式 为 

XX2 + yi? 
Vi XL N03 YS 
AZ KFA EAE [-1,1], JefRzsUZXRCA ARP IR RA), Se ARS) RP 
AS JAD EASE FAK AW TADS TRI C JEN] AREA UR ACA 1。 当 两 个 向 量 的 方 
同 相 有 反 的 时 候 ， 余 弦 夹 角 的 取 值 最 小 为 -1。 

以 上 是 K-means 算法 中 3 种 靖 用 的 距离 求解 方法 。 下 面 介绍 如 何 推导 聚 类 的 过 程 。 为 了 
更 好 理解 算法 ， 还 是 以 二 维 空间 的 数据 为 例 ， 数 据 分 布 如 图 5-30 所 示 。 现 在 要 对 该 图 中 数据 


进行 聚 类 。 























cosé = 















































5-30 K-means 样 例 数 据 


5.2 BRAG 











(1) 设置 K 值 。 先 设置 一 个 K 值 ， 这 个 K 值 表示 的 是 最 终 数 据 集聚 类 的 个 数 ， 为 了 
万 便 理解 ,设置 K=2， 表 明 最 终 这 份 数 据 会 被 涌 类 成 两 份 。 

(2) 彻 始 效 据 族 中 心 点 。K-means 一 般 征 通过 代 但 随机 生成 初始 数据 族 ， 这 里 可 以 看 
到 随机 生成 的 初始 质心 位 章 如 图 5-31 中 的 两 个 X PITS o 














5-31 初始 质心 点 
有 了 初始 质心 ， 算 法 会 做 第 一 次 遍历 ， 将 所 有 的 数据 做 第 一 次 分 类 ， 杜 选 出 与 两 个 质 


心 距 离 各 目 最 相近 的 两 类 数据 点 作为 第 一 次 迭代 的 篆 类 结 末 。 第 一 次 结束 可 以 通过 一 条 直 
线 进行 区 分 ， 如 图 5-32 所 示 。 














5-32 K-means 第 1 次 聚 类 结 
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图 5-32 中 展示 了 根据 初始 质心 生成 的 第 1 次 聚 类 结 未 ， N T SWE OER ATR, 
JE —4& AA ER UG ARATE a, HARA AER SS — 1 UD AIZEN A 2 , 


BARA B/N UL RA ZR) NERA DH, SRR ER ESR 
鬼话， 显然 是 不 够 理想 的 。Kmeans AEBS AT HA RRA CARY o 









































(3) dE. TES 2 步 中 ， 数 据 集合 已 经 被 区 分 成 了 两 类 。 这 时 候 算 法 需要 重新 
定义 质心 点 ,进行 下 一 次 的 聚 类 ,新 的 质心 点 的 定义 就 是 上 一 次 聚 关 结 果 每 个 关 别 的 中 心 
点 ， 如 图 5-33 所 示 ， 第 2 次 迭代 生成 了 新 的 质心 点 的 位 置 (用 小 方块 表示 )。 

















5-33 新 的 质心 位 置 











通过 新 的 质心 点 残 可 以 重复 缀 类 操作 ， 用 新 的 质心 计算 新 的 到 类 ， 依 次 欠 代 下 去 ,， A 
到 质心 点 不 肝 变 化 。 





(4) 最 终结 果 。 最 终 通过 上 百 次 到 上 万 次 数量 不 等 的 迭代 ， 生 成 了 相对 比较 稳定 的 聚 
类 。 最 终 的 聚 类 结果 如 图 5-34 所 示 。 








通过 K-means 的 结果 图 我 们 可 以 看 出 来 , 数据 集 被 目 动 分 成 了 两 种 ， 从 数据 的 分 布 来 
这 两 种 数据 点 的 分 布 相对 比较 均匀 。 用 户 并 且 可 以 通过 K-means 算法 拿 到 每 组 数据 的 
分 类 结果 以 及 每 个 质心 的 具体 位 置 。 
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HY 2k 45 














K-means 算法 在 实际 的 使 用 过 程 中 有 多 种 非常 灵活 的 应 用 场景 。 例 如 已 经 有 了 两 组 聚 
类 好 的 数据 集 ， 当 有 新 的 数据 进来 之 后 ， 可 以 通过 K-means 算法 把 新 的 数据 进行 分 类 ， 这 
样 的 场景 弟弟 可 以 用 在 对 数据 打 标 ， 因 为 监督 学 习 震 要 依赖 打 标 好 的 数据 。 我 们 可 以 先 人 














肉 打 标 一 部 分 ， 然 后 通过 K-means 把 其 他 的 数据 目 动 打 标 。 态 一 种 场景 是 我 们 可 以 通过 
K-means 这 样 的 自 法 找到 每 个 类 别 的 中 心 点 ， 这 些 中 心 点 在 很 多 场景 下 者 具备 很 重要 的 意 
义 ， 因 为 中 心 点 往往 代表 看 每 个 类 别 的 最 突出 的 属性 。 
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5-34 K-means 结 


3. 工程 实现 





Efi ZSTEARIZT 28 f. K-means 算法 的 推导 过 程 , 现在 简 早 地 通过 Python 的 Numpy 2B 
阵 库 对 K-means 算法 中 的 重要 步骤 进行 实现 。 














(1) 求 向 量 距离 。 下 面 先 介绍 向 量 距 离 的 实现 方法 ， 这 个 函数 是 Kmeans 中 使 用 量 最 
大 的 函数 。 这 里 选择 欧 拉 距离 作为 求 向 量 距 离 的 方法 。 














假如 我 们 有 两 个 向 量 vector_tl 和 vector t2， 那 么 距离 为 


sqrt (sum (power (Vector tl - vector t2, 2))) 


对 应 的 公式 为 


d = Va —x,) =(j -yiY 
(2) BARE P RESZT CBls E23) ma sal )。 


def kMeans(dataSet, k): 


m = shape (dataset) [0] 
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n — shape (dataSet) [1] 
clusterAssment - mat(zeros((m,2))) 
centroids=mat (zeros((k,n))) 
for index in range(k): 
centroids[:,index]=mat (5+5*random.rand(k,1)) 
clusterChanged = True 
while clusterChanged: 
clusterChanged = False 
for 1 in range(m): 
minDist = inf; minIndex = -1 
for j in range(k): 
vecA=array (centroids) [j,:] 
vecB=array (dataSet) [1,:] 


distJI-sqrt(sum(power(vecA - vecB, 2))) 


if distJI < minDist: 


minDist = distJI; minIndex = j 
if clusterAssment[i,0] != minIndex: clusterChanged = True 
clusterAssment[i,:] = minIndex,minDist**2 


for cent in range(k): 


ptsInClust- dataSet[nonzero(array(clusterAssment)[:,0]-- 
cent) [0] [0]] 
centroids[cent,:] = mean(ptsInClust, axis-0) 
id-nonzero(array(clusterAssment)[:,0]--2cent)[0] 


return centroids, clusterAssment,id 


e 恋 入 数据 源 dataSet 是 numpy #ERE, k 是 质心 数量 。 


e 通过 numpy 的 random.rand 函数 生成 了 随机 惩 阵 格式 数据 ， 作 为 初始 质心 。 











重 过 质心 点 的 状态 机 clusterChanged 判断 是 否 聚 类 结束 。 


通 
e 其 中 centroids 是 质心 点 ， 通 过 id 进行 类 别 区 分 。 

















K-means FSi is SURED, BER BE A AS BORA RRR, Hr 
VUE T E AR EG o WUIRAGYESH Sf K-means 算法 的 迭代 过 程 ， 比 较 好 的 学 习 方 
Ee TE AS K-means 不 断 迭 代 计 算 的 过 程 中 打印 点 数据 , 然后 通过 打印 数据 观察 每 一 次 返 
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ASTI ST 2A f K-means 的 算法 理论 以 及 推导 , K-means EW ERE Kie a 3s 
CANT FREER RARE. SEL. f a KAONA, 每 一 次 迭代 都 依 
赖 当前 质心 位 置 进行 聚 类 ， 然 后 在 新 的 聚 类 结果 中 寻找 新 质心 ， 最 终 的 收敛 条 件 就 是 质心 
的 位 置 不 再 变化 。K-means 是 基于 距离 聚 类 的 经 典 算法 ， 这 个 算法 在 非常 多 的 复杂 场景 
都 有 很 好 的 应 用 。 
































5.2.2 DBSCAN 




















DBSCAN 跟 K-means 的 不 同 之 处 是 在 于 它 是 一 种 基于 密度 的 聚 类 算法 , 虽然 解决 的 都 
是 聚 类 场景 ， 但 是 因为 在 数据 挖掘 中 每 一 次 数据 的 分 布 特点 都 不 尽 相同 ， 所 以 很 多 时 候 要 
需要 根据 具体 的 数据 分 布 情况 选择 使 用 DBCASN 或 是 K-means 算法 。 这 一 了 我 们 惑 来 介 
24 DBSCAN 算法 。 



































1. 基础 概要 


DBSCAN 是 一 球 基 于 密度 的 聚 类 算法 ,上 一 节 介 绍 的 K-means 是 基于 空间 距离 的 , 两 
者 的 区 别 在 聚 类 算法 的 开篇 介绍 里 面 已 经 详细 地 说 明了 。 这 里 再 简单 地 介绍 一 下 什么 是 空 
间 密 度 ， 以 二 维 数据 为 例 ， 假 如 我 们 有 一 批 数 据点 ， 该 如 何 判断 数据 点 之 间 的 密度 呢 ? 密 
度 的 概念 是 要 先 确定 一 个 中 心 点 和 半径 ,通过 点 和 半径 绘制 一 个 圆 ， 圆 里 面 的 数据 点 的 个 
ZAR. Un 5-35 所 示 。 
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5-35 密度 概念 示意 
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DBSCAN 算法 需要 用 户 输入 两 个 参数 : 一 个 是 半径 (eps )， 表 不 以 给 定点 了 为 中 心 的 
HÆRER, aA 5-35 所 示 圆 的 半径 。 态 一 个 参数 是 以 P 为 中 心 的 邻 域内 最 少 的 点 
的 数量 ( MinPts )， 这 个 参数 表示 密度 的 概念 ， 以 上 是 DBSCAN 算法 对 输入 参数 的 要 求 。 
我 们 看 到 相 比 于 K-means, DBSCAN 的 一 大 优势 束 是 不 需要 提前 设 定居 值 。 为 什么 进 这 是 
一 个 优势 呢 ? 因为 在 实际 的 使 用 过 程 中 , 算法 使 用 者 往 往 很 难 在 聚 类 前 头 已 经 判断 好 这 个 
数据 集 可 以 聚 成 几 类 。 下面 通过 一 个 例子 说 明 一 下 DBSCAN 相 较 于 K-means 的 这 一 优势， 
假如 我 们 有 如 图 5-36 所 示 的 这 样 一 组 数据 分 布 。 












































5-36 中 数据 点 较为 请 晰 地 分 布 成 10 份 。 如 来 通过 K-means 进行 聚 类 ， 需 要 在 算法 
聚 类 之 前 设 章 KK 值 ， 针 对 上 面 的 这 份 数 据 集 ， 如 下 错 把 K 值 设 间 成 11， 显 然 很 难得 到 合 
理 的 效 末 。 如 朱 使 用 的 是 DBSCAN ， 算 法 会 根据 父 度 目 动 调整 聚 类 的 类 数 ， 针 对 这 种 按照 
密度 区 分 明显 的 数据 集 ， 通 前 可 以 得 到 更 合 理 的 分 类 结 采 。 





























< x til e 
"e. 


data$x 


5-36 数据 分 布 示例 





相对 K-means, DBSCAN 的 另 一 个 优势 是 可 以 过 着 噪音 数据 。 在 数据 挖掘 过 程 中 ， 往 
往 会 遇 到 很 多 噪音 点 ， 如 图 5-37 所 示 被 圈 起 来 的 这 个 点 。 

















这 些 噪 音 点 往往 征 因为 数据 采集 的 丝 漏 或 者 数据 采集 系统 不 稳定 造成 的 , 对 需要 解决 
的 业务 场景 没有 很 大 的 关联 。 但 是 如 果 采 用 K-means 方法 进行 聚 类 的 话 ， 这些 点 也 会 被 分 
到 某 一 个 类 别 中 去 ， 不 会 被 过 滤 ， 但 是 DBSCAN RRA VERE a, LAY 
层 数 据 清洗 的 作用 。 夯 外 DBSCAN 还 具有 一 些 特性 ， 相 比 于 K-means，DBSCAN 对 球状 
的 数据 族 (图 5-36 中 数据 类 型 ) 具有 更 好 的 处 理 效果 。DBSCAN 在 输入 参数 和 数据 集 回 



































定 的 情况 下 ， 最 终 的 肾 类 结果 是 唯一 的 ， 而 K-means 会 受到 初始 质心 位 置 的 影 啊 。 
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5-37 ”噪音 点 











DBSCAN 的 一 些 短 板 这 里 也 简单 介绍 下 , 首先 是 在 高 维 数据 的 处 理 方面 , DBSCAN T. 
得 性 能 比较 差 , 而 且 效 果 比 较 一 般 。 为 外 在 处 理 一 些 数据 分 离 不 明显 的 数据 集 时 , DBSCAN 
的 聚 类 效果 会 受到 影响 , 特别 是 当 数 据 有 重 登 的 情况 下 ，DBSCAN 对 重 番 部 分 的 数据 会 做 
合并 操作 。 男 外 DBSCAN 的 算法 复杂 上 度 较 高 ， 对 计算 资产 的 消耗 略 大 于 K-means。 















































算法 推导 
(1) 距离 。DBSCAN 的 距离 按照 欧 氏 距离 来 计算 ， 具体 的 计算 逻辑 参考 上 文 。 


(2) 核心 点 。 按 照 上 文 的 介绍 ， 首 先 我 们 要 先 人 确定 半径 Eps 和 最 少数 据 MinPts。 这 里 
束 引 出 了 一 个 新 的 概念 一 一 核心 点 。 ieee CURAE WIR A EIR (EDA ) 在 半径 Eps 
PJRSERZACK T aS MinPts, FETE MI SEI Da. WA 5-38 所 示 ， 我 们 用 ii 
FTX” Prd SPA, (EG SCALA, aan eps=2， 然 后 画 了 一 个 圈 ， 如 果 这 
冉 里 面 的 点 数 大 于 或 等 于 MinPts tie X. A 为 核心 点 。 


介绍 完 距离 求解 和 核心 点 —— 下面 介绍 DBSCAN 算法 的 具体 计算 
ne ee eg 判断 这 个 点 是 否 是 核心 点 ， 如 果 C 是 核心 点 ， 
那么 这 个 点 就 跟 附近 的 Eps Ye ASIA ASA Dp XS UE FIZ ee HEUS BR 
HJ. DOPOD AX MANIC, FREES ERS, Mme Bl a edt 
4TH Hé. WER C 不 是 核心 点 ， 束 和 暂时 把 C 标记 成 噪音 。 这 样 一 直 遍 历 下 去 直到 C 所 在 的 
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5-38 核心 点 


3. 工程 实现 
以 上 对 DBSCAN 算法 进行 了 介绍 ， 下 面 介绍 如 何 通过 代码 简单 的 实现 这 个 算法 。 
(1) 密度 相连 检查 。 当 我 们 确定 了 一 个 点 ， 就 需要 判断 哪些 点 跟 这 个 点 密度 相连 ， 也 


就 是 欧式 距离 小 于 Eps 的 点 。 下 面 的 这 个 函数 就 是 计算 出 针对 对 绷 P, AAR REARS 
HRT, HHRH, 

















def regionQuery(self,P,eps): 
result = [] 
for d in self.dataSet: 
if (((d[0]-P[0])**2 + (d[1] - P[1])**2)**0.5)<=eps: 
result.append (d) 


return result 
(2) RP IK 


def expandCluster(self,point,NeighbourPoints,C,eps,MinPts): 


C.addPoint (point) 


for p in NeighbourPoints: 
if p not in self.visited: 
self.visited.append (p) 
np = self.regionQuery (p,eps) 
if len(np) >= MinPts: 
for n in np: 
if n not in NeighbourPoints: 


NeighbourPoints.append (n) 


for c in self.Clusters: 
if not c.has (p): 
if not C.has (p): 


C.addPoint (p) 


if len(self.Clusters) == 0: 
if not C.has (p): 


C.addPoint (p) 


self.Clusters.append(C) 


以 上 古 针 对 时 个 点 的 聚 类 扩张 函数 ， 通 过 蛙 个 把 向 外 人 不断 地 扩张 ， 返回 这 个 点 所 在 的 
聚 类 族 的 集合 。 具 体 的 计算 步 又 是 先 检查 单个 点 ， 然 后 古 这 个 点 的 密度 相连 点 ,遍历 所 有 
FARRER, TEI RF 





























e point 是 对 象 点 。 





e NeighbourPoints 是 point 的 密度 相连 的 集合 。 








e C point 所 在 的 聚 类 集合 。 
e eps 是 半径 ，MinPts 是 个 数 限 制 。 
(3) DBSCAN 的 主 函 数 。 


def dbscan(self,D,eps,MinPts): 
self.dataSet - D 


eS es 
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Noise = cluster('Noise') 


for point in D: 
if point not in self.visited: 
self.visited.append (point) 


NeighbourPoints = self.regionQuery (point,eps) 


if len(NeighbourPoints) « MinPts: 
Noise.addPoint (point) 

else: 
name = 'Cluster'-tstr(self.count); 
C = cluster (name) 


self.count+=1; 


self.expandCluster (point, NeighbourPoints,C,eps,MinPts) 








dbscan 函数 ， 通 过 遍历 所 有 输入 数据 集合 的 点 ， 然 后 得 到 聚 类 的 最 终结 果 集合 
。D 是 数据 集合 。 


e eps, MinPts 征 半 径 和 个 数 限 制 。 








e self.cluster 是 最 终 的 聚 类 结果 集 








通过 上 面 的 算法 , 带 入 数据 , 生成 的 结果 如 图 5-39 所 示 , 可 以 看 到 数据 点 通过 DBSCAN 
算法 按照 密度 聚 类 生成 了 Cluster0 和 Clusterl 两 个 类 别 。 





- DBSCAN Algorithm 


M eene tenen cooo | 


ORO Oo pe R 


Dim 2 


Xx 

XX x^ 
x XX: 
NX XX Xx XXX 


e e ClusterO ur PM do s md l 
o 
x x Cluster1 : cee 
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5-39 DBSCAN 效果 





5.3 回归 算法 





DBSCAN 通过 eps 和 MinPts 的 限制 找 出 核心 点 ， 通 过 核心 点 找到 与 其 密度 相连 的 核 
心 点 ， 然 后 遍历 所 有 数据 , RÍE n TERRAE ARA B 5-39 是 这 个 算 
法 效果 最 请 晰 的 呈现 ， 了 解 基于 密度 的 DBSCAN 聚 类 算法 和 基于 距离 的 K-means 算法 的 
特性 ， 对 我 们 未 来 更 好 地 使 用 这 些 方法 都 是 大 有 神 益 的 。 如 果 对 上 面 的 两 种 聚 类 方法 有 兴 
趣 ， 不 妨 上 自己 生成 些 数据 实验 一 下 。 


DBSCAN 作为 基于 器 度 的 聚 类 算法 在 低 维 度 的 数据 聚 类 场景 中 被 三 泛 使 用 , 因为 蜗 维 
数据 的 密度 相连 性 不 高 ， 所 以 更 适合 使 用 基于 距离 的 缀 类 算法 。 学 习 DBSCAN HER 
了 在 数据 挖 据 过 程 中 的 聚 类 于 段 ， 在 数据 分 布 比较 适合 基于 密度 区 分 的 时 候 ， 使 用 
DBSCAN 会 定 一 种 更 优 的 处 理 方 法 。 

































































5.3 回归 算法 











其 实 回归 算法 一 直 是 机 豆 学 习 算 法 领域 的 重要 组 成 部 分 ,， B CC ERAT ERRARE RT UTR 
征 回归 算法 的 一 员 ， 只 不 过 我 们 将 回归 值 取 了 国 值 用 于 分 类 操作 ,所 以 把 旬 辑 回归 分 到 了 
分 类 算法 的 种 类 中 。 分 类 和 回归 的 区 分 为 , 通 彰 如 采 预 测 芝 量 是 离散 的 , 我 们 称 其 为 分 类 ， 
如 朱 预 测 变量 是 连续 的 ， 则 叫 作 回 归 。 其 实 从 数学 多 辑 上 来 看 ， 回 归 算 法 其 实 束 是 拟 合 出 
贴近 于 实际 数据 点 的 曲线 。 在 真实 的 业务 场景 下 ， 回 归 算 法 党 被 用 来 对 未 来 的 数据 走 同 进 
ITEM, Bi Boe TUNE K 线 的 涨 或 者 跌 一 样 。 下 面 束 来 介绍 一 下 最 基础 的 回归 算法 一 一 
线性 回归 |。 


线性 回归 十 回归 大 家 族 中 的 最 容易 理解 的 一 员 , 线性 回归 的 原理 跟前 文 的 逻辑 回归 非 
剃 类 似 ， 在 学 习 的 过 程 中 可 以 相互 参考 来 理解 。 













































































1. 基础 概要 


线性 回归 ( Linear Regression ) 是 回归 算法 中 最 简单 的 一 种 回归 方程 ,是 一 种 监督 学 习 
的 机 器 学 习 算 法 。 上 文 已 经 介绍 了 逻辑 回归 ， 其 思路 是 利用 线性 方程 组 通过 Sigmoid 函数 
把 取 值 区 间 限 制 到 0 和 1 之 间 ， 然 后 利用 一 些 最 优化 的 方法 (在 逻辑 回归 一 节 用 到 的 是 梯 
度 下 降 算 法 ) 计算 梯度 ， 最 终 拟 合 出 曲线 。 线 性 回归 跟 逻 辑 回 归 的 思路 大 体 相 同 ， 就 是 没 
有 Sigmoid 函数 处 理 这 一 步骤 。 线 性 回归 也 是 通过 多 元 变量 方程 求 最 优化 来 拟 合 曲线 ， 下 
面 通过 一 张 图 来 表示 一 下 线性 回归 的 应 用 , 假如 在 二 维 向 量 空间 中 有 一 些 数 据点 分 布 , 通 
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过 线性 回归 方程 拟 合 出 如 图 5-40 所 示 的 虚线 ， 这 条 虚线 可 以 代表 数据 点 的 空间 分 布 情况 。 


有 了 这 条 回归 曲线 就 能 预测 下 一 阶段 的 点 的 分 布 , 从 而 实现 了 预测 功能 。 图 5-41 中 的 
方 蕊 束 是 通过 线性 回归 预测 出 来 的 下 一 阶段 可 能 的 数据 分 布点 。 

















5-40 BNA 5-41 线性 回归 预测 























线性 回归 被 广泛 用 于 预测 场景 中 ， 如 上 股票 预测 、 地 震 了 预测 和 大 气 预报 等 场 曲 下 ， 下 面 
介绍 如 何 通 过 算法 公式 来 推导 。 





2. 算法 推导 
线性 回归 的 数学 推导 公式 很 简单 ， 比 逻辑 回归 还 简化 了 很 多 ( 本 节 对 线性 回归 只 做 简 
化 介绍 ， 具 体 的 原理 可 以 参见 逻辑 回归 章节 )。 


(1) 回归 方程 。 首 移 还 是 通过 一 个 多 元 芝 量 的 函数 来 表示 需要 拟 合 的 线性 方程 。 














hy (X) zm C t 0x, + 05x; quisqu. 


HHA, x. x). xe. ARRAN MAR REAPER, HE EBD SE ee TRIE RK 
这 些 特 征 变 量 的 乘积 系数 ， 即 @，Q.，@…。 

(2 ) 最 优化 算法 。 线性 回归 方程 的 最 优化 算法 有 很 多 种 , 有 前 面 介 绍 的 梯度 下 降 算 法 ， 
也 有 最 小 二 乘法 。 这 里 还 是 简单 了 解 一 下 线性 回归 通过 梯度 下 降 算 法 求 最 优 解 ， 代 价 函 数 
下 




















01x ONE DV) 
173, 2,0960 y!) 





其 中 , 了 是 代价 函数 , y APM, m 为 数据 集中 数据 的 条 数 ，h4%) 是 我 们 需要 拟 合 的 函数 。 
通过 对 代价 了 男 数 求 侦 寻 数 融 可 以 赴 算 出 樟 度 值 ， 这 一 步 又 跟 逻 辑 回归 的 个 度 下 降 是 一 样 的 。 
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态 外 在 做 线性 回归 的 时 候 容 易 出 现 过 拟 合 的 问题 〈 详 匈 过 拟 合 草 世 的 介绍 )， 关 贡 要 
通过 做 正则 化 处 理 采 预防 过 拟 合 问题 的 出 现 。 线 性 回归 不 需要 像 逻 辑 回归 那样 考虑 取信 衬 
间 的 限定 ， 上 只 需要 通过 最 优化 算法 迭代 计算 最 优 线性 方程 系数 即 可 。 











3. 工程 实现 


通过 Sklearn 开源 库 可 以 非常 方便 的 使 用 线性 回归 算法 ， 我们 来 看 一 个 简单 的 案例 ， 
实验 环境 是 Mac OS, Python2.7, ric, WJH Sklearn 中 的 linearRegression 的 国 数 代码 : 














from sklearn import linear model 


linear regression = linear model.LinearRegression() 
x = [[5,2], [2,5], [3,9]] 
y = [0,1,2] 


linear regression. fit (x,y) 
print (linear regression.coef ) 
print (linear regression.intercept ) 


Print (lanear regressronpredrctibl5ke]l)) 


e linear regression 为 线性 回归 函数 再 明 。 


e x= [[5,2],[2,5],[3,9]] 为 特征 列 , 一 共 3 组 数据 , 每 组 数据 有 两 个 值 对 应 于 上 一 个 小 市 
公式 推导 中 的 xi 和 x， 表示 两 个 特征 。 


e y=[0,1,2] 为 目标 列 x 对 应 的 3 组 数据 的 目标 列 。 








e linear regression 是 生成 模型 。 


e linear regression.coef. 为 网 个 特征 系数 ， 对 应 线性 方程 ho) FIN A FA. 








e linear regression.intercept XI MHJ EERE, WEAN Co 





e 服 终 对 输入 数据 [3,3] 进 行 了 预测 。 [-0.06666667 0.26666667] 
eee E [0.4] 
上 述 代码 的 结果 如 图 5-42 所 示 。 [Finished in 2.6s]| 





AR a RIO ^ Fil Ft-0.06666667 和 0.26666667, RIE C 为 5-42 ”线性 回归 结 
-0.2， 输 入 数据 [3,3] 的 预测 值 为 0.4。 


以 上 介绍 了 线性 回归 的 概念 以 及 算法 推导 ， 并 且 用 Sklearn 库 运 行 了 一 个 实例 ， 其 实 
为 线性 回归 跟 逻 辑 回 归 的 原理 近似 ， 因 此 这 一 部 分 并 没有 做 过 多 的 说 明 。 回 归 算 法 作为 
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机 融 学 习 算法 的 一 大 分 文 ， 主 要 解决 了 连续 数据 的 分 类 和 预测 的 场景 ， 有 非 负 多 的 用 途 。 
线性 回归 的 公式 比较 简单 、 容 易 理 解 ,所 以 在 许多 场景 下 都 有 非 贡 好 的 应 用 ， 如 股票 和 天 
气 的 预测 ， 布 望 能 够 通过 本 慷 的 介绍 帮助 大 家 真正 地 了 解 这 个 算法 。 




















5.4 MADRE 














随 看 机 格 学 习 算法 的 发 展 , 对 文本 分 析 类 场景 的 需求 在 不断 增 加 ， 以 前 如 琳 需 要 把 个 
问 种 类 的 文章 进行 分 类 ,往往 要 依赖 人 网 去 阅读 判 新 。 随 春 文 本 类 算法 的 发 展 ， 很 多 诸如 
此 类 的 场景 正在 逐渐 被 机 全 所 侄 代 。 本 革 将 主要 介绍 几 个 文本 分 析 类 场景 沼 用 的 算法 , A 
下 为 读者 理解 文本 类 算法 作为 一 个 引导 。 


























5.4.1 分 词 算 法 一 一 Hmm 





分 间 算 法 束 是 将 句子 按照 每 个 词 的 意义 进行 分 割 ， ROTOR, AVA AOR BETA 
是 天 然 按照 空格 进行 分 割 的 ， 所 以 不 存在 分 词 相 关 的 操作 ， 但 是 对 中 文 来 庆 ， 因 为 词 与 词 
在 书写 的 过 程 中 不 其 备 天 然 的 分 隔 待 ， 如 采 需 要 对 语义 进行 分 机， 一 定 要 对 句子 中 的 词 进 
行 拆 分 。 例 如 句子 “我 来 日 北京 ”， 分割 完 成 的 结 来 古 “ 我 \ 来 目 \ 北 京 "。 对 文本 分 析 类 场 
BORG, 分 词 算法 一 定 古 最 为 基础 的 一 个 步 坚 ， 是 整个 文本 分 析 的 第 一 个 流程 。 分 词 结 末 
的 好 坏 将 直接 决定 了 后 续 的 语义 分 析 、 打 标 和 聚 类 等 场景 的 准确 性 ， 试 想 一 下 如 末 “ 我 来 
目 北 京 ”被 分 割 成 “我 \ 来 目 北 \ 泵 ”"， 那么 对 下 面 其 他 语义 相关 算法 的 赴 算 结 来 都 有 非常 大 
的 影响 ， 本 下 将 主要 介绍 一 下 相 天 的 分 词 算法 。 

































































1. 基础 概要 

要 了 解 分 词 算 法 , 我 们 多 来 看 一 下 文本 分 词 方法 大 概 可 以 分 为 哪儿 种 类 别 以 及 这 儿 类 
方法 的 区 别 。 在 笔者 看 来 ， 分 词 大 致 可 以 分 为 3 种 方法 : 机 械 分 词 、 统 让 分 词 和 机 带 学 习 
分 词 。 这 儿 种 分 词 方法 从 不 同 的 角度 出 发 , 各 有 优 缺 点 , 实际 在 操作 中 是 可 以 结合 使 用 的 ， 
下 

C1) 机 械 分 词 。 机 械 分 词 的 思想 很 镜 单 ， 假 如 有 一 个 非 弟 大 的 词 库 ， 这 个 词 库 大 到 吕 
Vir AHSCT, 那么 我 们 在 分 词 的 时 候 只 需要 将 需要 分 词 的 文章 从 前 同 后 人 过 历 一 
明 ， 把 和 词 库 匹 配 的 词语 选择 出 来 束 可 以 了 。 这 里 就 会 钞 及 两 个 问题 ， 一 个 是 效率 问题 ， 















































5.4. 文本 分 析 算 法 











每 季 选 出 一 个 词 都 需要 通 历 一 过 原始 词 库 ， 因 为 原始 词 库 是 非 芝 大 的 ,那么 每 分 一 个 词 都 
允 历 一 过 势必 会 造成 效率 低下 ， 针 对 这 样 的 问题 可 以 通过 树 状 结构 的 数据 存储 方式 来 棕 
优 。 压 外 一 个 问题 就 是 出 现 语义 政 义 的 分 词 ， 例 如 我 们 有 一 句 话 是 “我 是 中 国人 。 ”那么 
假设 我 们 从 前 同 后 过 历 ,“ 中 国 ” 和 “中 国人 ”都 是 出 现在 词 库 里 的 词语 ， 那 么 具体 分 词 
的 时 候 是 否 把 “中 国人 ”进行 分 割 ? 针对 这 种 情况 ， 需 要 制定 一 些 规 则 来 规避 风险 ， 按 照 
文本 扫 拉 的 方式 可 以 通过 目 堪 疝 右 的 最 大 匹配 法 、 目 右 癌 左 的 逆 癌 最 大 匹配 法 和 双 同 最 大 
匹配 法 3 种 万 法 来 定义 ， 也 可 以 按照 最 小 切 分 法 发 来 进行 。 这 些 方法 的 最 终 目 的 束 古 你 证 
每 一 句 中 的 分 词 结束 数量 最 小 。 机 械 分 词 往往 作为 分 词 操作 中 的 辅助 项 , 起 到 捉 升 分 词 精 
度 或 者 校 验 分 词 结 采 的 作用 。 


(2) 统计 分 词 。 统计 分 词 是 一 种 简 蛙 的 基于 概率 的 分 词 算 法 ， 这 个 算法 的 核心 思想 束 
挟 在 海量 文本 中 找 出 同时 出 现 频 率 很 高 的 几 个 字 , 那么 这 几 个 字 组 成 在 一 起 很 有 可 能 就 是 
一 个 词语 。 比 方 说 ， 我 们 有 一 个 文本 是 “小 红 买 了 一 个 鸡 重 ， 她 的 区 区 说 你 买 的 这 个 鸡 华 
真 大 。” 这 里 “ 鸡 ” 和 “和 集 ”这 两 个 字 同 时 出 现 的 概率 了 最大， 那么 通过 概率 分 析 ， 这 两 个 
字 很 有 可 能 就 古 搭 配 起 来 表示 一 个 词语 ， 于 是 束 可 以 把 “ 鸡 集 ”这 个 词语 挑 出 来 。 基于 统 
计 的 分 词 方法 具备 一 个 比较 大 的 好 处 就 是 对 新 出 炉 的 词 的 感知 能 力 很 踢 ， 因 为 随 看 互联 
网 的 发 展 ， 每 天 都 有 一 些 新 的 网 络 词语 出 现在 我 们 的 生 匡 中， 任何 词 库 都 很 难 做 到 实时 
更 新 ， 那 么 依 重 机 械 分 词 这 样 的 方法 是 无 法 及 时 发 现 新 产生 的 名 词 的 ， 而 在 这 方面 ， 统 
计 分 词 束 可 以 作为 一 个 很 好 的 补 元 。 


(3) 机 璐 学 习 分 词 。 再 来 看 看 我 们 这 一 攻 的 主角 一 一 机 带 学 习 分 词 。 这 类 分 词 基于 人 
工 标注 的 词性 和 统计 特征 对 中 文 进行 建 模 ， 实际 的 分 词 过 程 其 实 就 变 成 了 对 结 采 的 预测 过 
程 ,通过 计算 每 种 分 词 可 能 性 的 概率 大 小 来 进行 分 词 并 且 得 到 最 终结 采 。 这 里 比较 剃 见 的 
方法 就 是 隐 马 尔 科 夫 模 型 (Hidden Markov Model, HMM ) 和 条 件 随 机 场 ( Conditional 
Random Field, CRF) QA, APERM HMM 的 方法 。 


HMM FIARE, d] (Z5 HS SAT, RESET ea. IBA Aceh S76 
科 夫 模型 ， 这 个 “ 隐 ” 字 代表 什么 呢 ? 通过 维基 百科 的 一 个 经 典 的 的 例子 来 解释 : 假如 一 
SAA, 根据 天 气 状 况 是 下 十 或 者 睛 天 来 安排 目 己 的 苛 动 , A 有 3 种 活动 可 以 选择 ,分 别 
是 散步 、 购 物 和 清理 房间 。 我 们 可 以 通过 推荐 (Twitter ) 了 解 到 A 这 个 人 每 天 都 在 做 什么 ， 
那么 虽然 我 们 不 知道 A 的 城市 每 天 具体 的 天 气 状 况 , 但 是 也 可 以 有 办 法 通过 他 的 滞 动 米 推 
HE A 所 在 城市 每 天 的 大气。 因为 A 的 活动 跟 天 气 是 有 一 定 天 系 的 ， 比 方 说 如 打 这 一 天 是 
雨天 , 那么 A 出门 散 步 的 概率 藉 不 会 很 大 。 在 这 个 案例 中 , 天 气 状 况 是 我 们 要 预测 的 “ 隐 ” 
信息 。 这 里 边 的 天 气 和 A 活动 间 的 天 系 可 以 通过 状态 概率 矩阵 来 表示 ， 隐 马尔 科 夫 算法 残 
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114 | 第 5 章 
机 器 学 习 算法 一 一 常规 算法 


AEXUEE— “MT AL VIE e dE 


隐 马 尔 科 夫 模 型 主要 可 以 用 来 解决 3 种 基本 问题 :评估 问题 ( Forward-backward 算法 )、 
解码 问题 (Viterbi 算法 ) 和 学 习 问 题 (Baum-Welch 算法 ), ix 3 种 问题 的 区 分 主要 是 依赖 
于 算法 的 输入 ， 我 们 可 以 把 HMM 的 输入 分 为 以 下 五 元 组 。 











e InitStatus: 万 始 状态 集合 。 


e StatusSet: 状态 值 集合 。 





e ObservedSet: 观察 值 集 合 。 
e TransProbMatrix: FEMRE ERE. 
e EmitProbMatrix: A EAE, 


(在 算法 推 寻 的 部 分 会 对 每 一 个 部 分 的 晶 义 有 详细 的 说 明 ) 本 文 提 到 的 分 词 功能 其 实 
是 一 种 解码 问题 ， 这 种 解码 问题 的 本 质 上 是 寻找 最 优 的 隐 状 态 序 列 ， 通常 是 利用 Viterbi 
TIEN, Viterbi 算法 是 已 知 InitStatus、ObservedSet、TransProbMatrix 和 EmitProb Matrix, 
求解 StatusSet 的 方法 。Viterbi 算法 的 理论 是 下 一 步 的 状态 会 依赖 前 一 步 的 状态 和 当前 可 观 
察 的 状态 。 下 面 介绍 Viterbi 算法 的 具体 推导 过 程 。 






































2. 算法 推导 

前 面 简单 介绍 了 HMM 的 基本 概念 ， 这 一 部 分 将 针对 HMM 的 Viterbi 算法 进行 一 个 
推导 ， 为 了 更 生动 地 表示 算法 的 意义 ， 我 们 采取 一 个 生 话 中 的 场景 进行 具体 的 数值 推导 。 
假设 有 一 个 人 B， 他 有 3 种 状态 分 别 是 笑 、 无 表情 和 灾 ， 通 过 观察 他 的 表情 推测 出 他 的 隐 
含 状态 : 高 兴 或 者 不 高 兴 。 这 里 假设 我 们 的 转移 概率 符 阵 和 发 射 概率 托 阵 等 都 是 经 过 训练 
得 到 的 最 终结 果 (具体 数值 表示 概率 值 )， 我 们 看 下 有 具体 的 推导 过 程 是 怎样 实现 的 。 

(1) 输入 的 5 项 式 结果 如 下 。 


首先 看 下 初始 状态 ，InitStatus 的 两 种 状态 : InitStatus={ 高 兴 : 0.605324: 0.4}。 



































隐 含 的 心情 状态 ，StatusSet={ 蜗 兴 、 个 局 兴 }。 


e 观察 到 的 状态 ，ObservedSet={ 笑 ， 无 表情 ， 灾 }。 





0.6 0.4 u " | 
o 转移 概率 矩阵 ，TransProbMatrix= h T 1 RAWE S Ee Ame IER 


5.4. 文本 分 析 算 法 














PA S| 8) =0.4, mm BEP EE PCa S| 4) =0.6, LES 
P(r S| Aen) =0.7, ATES OAS P( 不 局 兴 | 不 局 兴 )=0.3。 


0.6 0.3 0.1 
Set A HEB 


P(R)-0.6, PQJCXXTE)-0.3, PCR)-0.1), 个 





e 在 相应 心情 状况 下 的 表情 概率 ， EmitProbMatris- 


含义 是 高 兴 心 情 下 的 状态 概率 为 { 融 兴 : 
高 兴 状 态 下 的 概率 为 { 不 高 兴 : P( 突 )=0.2，P( 无 表情 )=0.2，P( 炎 )=0.6}。 


(2) RAHET. BRIZE B mal 3 大 的 到 入 JER, IREME, 
过 Viterbi 算法 推导 下 B 这 3 天 的 心情 是 怎样 的 。 


e 第 1 天 的 心情 。 由 初始 状态 InitStatus 得 到 ，P( 融 兴 )=0.6，P( 不 高 兴 )=0.4， 
初始 值 。 因 为 第 一 天 的 表情 的 观察 状态 是 “ 闫 "”。 上 所 以 第 1 天 的 心情 为 














分 别 





SE 











P(r 4)=P(ZE| FS) x P( 高 兴 | 初 始 状态 )=0.6 x 0.6=0.36 
P( 不 高 兴 )=P( 舌 


这 里 应 用 到 了 人 发射 概 率 和 矩阵 ， 
可 能 性 比较 天。 


。 MERRE 2 天 的 状况 。 第 


| 不 高 兴 ) x P( 不 高 兴 | 初 始 状态 )=0.2 x 0.4=0.08 








第 1 天 的 POS) PUB. BRL ABB 








2 天 的 表情 是 “无 表情 ”, 第 2 天 的 状态 有 以 下 4 种 可 能 。 














PR- Aar OK =P AS) x PCS OS) x POUTS [m74)20.36 x 0.6 
x 0.3=0.0648 


P( 前 一 天 高 兴 ， 今天 不 高 兴 )=P( 前 一 天 高 兴 ) x PCRS OAS) x POT m 
兴 )=0.36 x 0.4 x 0.2=0.0288 








P( 前 一 天 不 高 兴 , 今天 高 兴 )=P( 前 一 天 不 蜗 兴 ) x P( 不 高 兴 一 高 兴 ) x P( 无 表情 | 高 
兴 )=0.08 x 0.7 x 0.3=0.0168 





PHI KAS, Am 
3720.08 x 0.3 x 0.2=0.0048 


-天 高 兴 ) x P( 不 高 兴 一 不 高 兴 ) x POCTES WO 








吉 论 是 第 2 天 B 的 心情 是 高 兴 的 
的 两 个 概率 值 之 和 较 大 。 


第 3 天 我 们 观测 到 B 的 表情 是 “ 实 ”， 


这 里 涉及 TransProbMatrix 和 EmitProbMatrix, 计算 的 
可 能 性 最 大 ， 因 为 结果 是 “今天 高 兴 ” 


[R]Z N 
。 下 面 来 看 下 第 








3 天 的 情况 。 跟 上 一 天 的 推导 
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KMA, 88 3 天 的 公式 如 下 。 


KRA, 今 大 局 兴 )=P( 前 一 大 局 兴 ) x PORA MS 08$) x POS [89 24)- 


(0.0648+0.0168) x 0.6 x 0.1=0.004896 


/ 





PCBE—X Bos A PR 
(0.0648+0.0168) x 0.4 x 0.6=0.019584 





P( 前 一 天 不 高 兴 , OARSY4)=PCRI—AA BS) x CABS) x PCRS 
兴 )=( 0.0288+0.0048) x 0.7 x 0.1=0.002352 


P(Bil—A4 BM. SAARA R AA Pea hE AARTE) 
( 0.0288+0.0048) x 0.3 x 0.6=0.006048 


所 以 通过 计算 可 以 推 炳 出 , BZAR BATE Ries, ACESS AAS BS 
概率 的 和 较 大 。 


最 终 ， 通 过 3 天 的 表情 关 一 无 表情 一 天 ， 可 以 推出 他 的 心情 是 局 兴 一 局 兴 一 个 噩 兴 。 
以 上 是 通过 一 个 日 剃 生 活 中 的 案例 来 描述 如 何 利 用 InitStatus、StatusSet、ObservedSet、 
TransProbMatrix 和 EmitProbMatrix 这 5 个 输入 ， 通 过 Viterbi 行 推导 ， 对 隐 羧 的 状 
态 实现 概率 层面 的 推理 。 但 是 这 又 跟 分 词 有 什么 关系 呢 ? 其 实 分 词 场景 也 可 以 抽象 成 上 面 
iti 这 样 的 5 个 输入 的 形式 。 假 设 我 们 需要 对 下 面 的 这 bein 分 词 。 






































把 这 句 话 的 每 一 个 字 看 作 一 种 观察 状态 ，ObservedSet={ 李 ， 雷 , 是 ， 中 ， 国 ， 人 }。 
有 了 观察 状态 ,我们 需要 挖掘 隐 减 状态 ， 其 实 对 分 词 这 样 的 场景 来 卉 ， 只 要 可 以 抓 住 每 个 
词 的 开头 和 结尾 的 字 ， 就 可 以 把 词语 区 分 出 来 。 所 以 针对 语句 中 的 每 个 池 ， 它 的 隐 含 状态 
WLXE[B: begin, M: middle, E: end, S: fetes 其 中 ，B 表示 了 对 应 的 字 是 词语 的 开始 ， 






































M d Hye], E 表示 这 个 字 是 词语 的 结束 ，$ 和 表示 的 是 这 是 单个 字 的 词 。 
对 如 上 的 例子 通过 隐 仿 状态 就 可 以 进 nw 分 

李 雷 /是 /中 国人 

BE/S/BME 


这 样 我 们 残 确 认 了 在 分 词 场 景 下 ObservedSet 和 StatusSet 的 意义 。 下 面 介 绍 InitStatus 
的 定义 ，InitStatus 在 分 下 表示 第 一 个 字 的 状态 概率 ,因为 第 一 个 字 不 可 能 作为 E 或 
者 M 出 现 ， 所 以 只 需要 设 定好 第 一 个 字 是 B 或 者 S 的 概率 即 可 。TransProbMatrixz 和 
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EmitProbMatrix 这 两 个 矩阵 的 具体 概率 值 可 以 通过 大 量 的 标记 样本 数据 训练 得 到 ， 这 两 个 
概率 矩阵 就 是 分 词 算法 的 核心 。 这 样 一 来 ， 在 分 词 的 场景 下 ， 我们 把 需要 分 词 的 对 象 作 为 
ObservedSet， 通 过 训练 生成 的 InitStatus, TransProbMatrix 和 和 EmitProbMatrix 就 可 以 预测 
出 对 应 的 StatusSet， 然 后 利用 StatusSet 进行 词语 的 切割 。 

















3. 工程 实现 


介绍 完 一 些 分 词 的 基本 概念 以 及 Hmm 的 Viterbi 算法 的 实现 后 , 这 一 节 介绍 如 何 工 程 
化 的 实现 分 词 这 个 功能 。 目 前 前 网 的 中 文 分 词 系统 有 中 科 院 的 ICTCLAS, 、 哈 工大 的 ltp, 
东北 大 学 的 NIU Parser 以 及 jieba 分 词 。 笔者 通过 开源 项 目 jieba 分 词 作 为 示例 来 实现 分 词 
HEIE, KH jieba 分 词 的 原因 有 下 面 儿 点 : 其 一 ，jieba 分 词 的 精度 比较 理想 ; 其 二 ，jieba 
分 词 的 算法 妃 理 殉 是 前 面 小 站 所 进 的 基于 HMM 的 Viterbi 算法 实现 的 ; 其 三 ，jieba 分 词 
是 开源 的 Python 分 词 库 ， 对 理解 和 部 署 源码 都 比较 方便 。 


jieba 分 词 的 具体 实现 步 台 (由 加载 词 典 dict.txt( 可 以 在 下 载 好 的 目录 中 查看 ); OW 
建 句 子 的 有 向 无 环 图 ( Directed Acyclic Graph, DAG ); @ 对 词典 中 的 未 收录 词 , 使 用 HMM 
的 Viterbi 算法 进行 分 词 ; 和 使 用 动态 规划 (Dynamic Programming, DP ) 寻找 有 疝 无 环 图 
的 最 大 概率 路 径 并 且 返 回 结 果 。 下 面 我 们 来 具体 操作 一 下 。 


















































( 1) 安装 jieba 分 词 。 首先 还 是 要 安装 jieba, 可 以 登录 网 站 https://github.com/fxsjy/jieba 
去 查看 具体 的 安装 方式 ， 这 里 通过 clone 下 载 代码 包 ， 然 后 在 项 目 目 录 下 执行 : 











python setup.py install 





(2) Kro ZRU jieba 的 分 词 库 之 后 ， 调 用 起 米 也 比较 方便 ， 在 程序 中 import jieba 
BUF], jieba 提供 了 以 下 3 种 分 词 模式 .。 


e 精确 模式 ， 试 图 将 句子 最 精确 地 切 和 天， 适合 文本 分 析 。 
。 PRN, 把 句子 中 所 有 可 以 成 词 的 词语 都 扫 摘 出 来 , BREE AER, 但 是 不 能 解决 卜 义 。 
e 搜索 引擎 模 式 ， 在 精确 模式 的 基础 上 ， 对 长 词 由 次 切 分 , fer Giles, 适用 于 搜索 


引擎 分 局。 


通过 一 段 实例 代 但 可 以 看 一 下 具体 的 分 词 效 末 ， 丰 例 代 介 《〈《Python 2.7) 如 下 。 


























# encoding-utf-8 


import jieba 
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seg list = Jieba.cut(" 我 来 到 北京 清华 大 学 "， cut all-True) 


print ("Ann "+ "/ ".join(seg list).encode('utf-8')) # ÆRA 


seg list = Jieba.cut(" 我 来 到 北京 清华 大 学 "， cut all-False) 


print ("精确 模式 : " + "/ ".join(seg list).encode('utf-8')) # 精确 模式 


seg list = jieba.cut for search ("我 来 到 北京 清华 大 学 ") t 搜索 引擎 模式 


print ("搜索 引擎 模式 : "+"/".join(seg list).encode('utf-8')) 


结 示 展示 如 图 5-43 所 示 。 





Loading model cost 0.522 seconds. 
Prefix dict has been built succesfully. 


SR: 我 / 来 到 / 北京 / 清华 / 清华 大 学 / 华 大 / 大 学 


精确 模式 : 我 / 来 到 / 北京 / 清华 大 学 
搜索 引擎 模式 : 我 /来 到 /北京 /清华 / 华 大 /大 学 /清华 大 学 


5-43 分词 结 





本 节 主要 介绍 了 文本 分 析 的 第 一 个 步 又 一 -分词 算法 的 实现 ， 讲 解 了 Hmm 算法 的 扒 
F, 并且 使 用 了 jieba 分 词 展示 了 如 何 对 文本 进行 分 词 操作 。 其 实 本 节 对 分 词 算法 的 原理 
只 是 一 个 简单 的 科普 ， 中 文 分 词 是 一 个 非常 复杂 的 领域 ,需要 涉及 种 类 繁多 的 算法 理论 ， 
如 果 想 深入 了 解 相 关 技 术 , 需要 更 多 地 研习 相关 的 中 文 分 词 论文 ,或 者 多 查看 分 词 算法 的 
源码 。 分 词 作为 文本 分 析 的 第 一 步 已 经 介绍 结束 ， 下 面 会 对 其 他 文本 分 析 的 主要 算法 进行 


介绍 。 



































5.4.2 TF-IDF 





本 万 将 介绍 如 何 对 文本 文件 进行 打 标 ,在 实际 的 文本 业务 场景 中 ,对 文章 打 标 是 最 为 
第 见 的 应 用 之 一 。 当 我 们 打开 一 篇 关于 足球 比 才 的 新 闻 的 时 候 ， 往往 可 以 看 到 在 新 闻 的 正 
文 前 面 会 有 “体育 ”“ 足 球 ” 这 样 的 小 标签 ， 这 坚 标 等 可 以 帮助 人 们 对 文章 进行 分 类 ， 也 
可 以 作为 文本 内 容 推 存 的 一 个 依据 。 很 多 时 候 , 我 们 看 到 的 文本 内 容 是 通过 内 容 提 供 者 于 
动 标 记 的 ， 本 方 将 介绍 一 种 日 动 打 标的 算法 TF-IDF。 























1. 基础 概要 


词 频 - 逆 同 文件 频率 ( Term Frequency-inverse Document Frequency, TF-IDF ) 古 一 种 用 
于 信息 检索 和 数据 挖掘 的 加 权 技 术 ， 也 就 古 第 说 的 文本 的 打 标 。 要 理解 TF-IDF 的 算法 实 

















5.4. 文本 分 析 算 法 








现 原 理 ， 首 爷 要 多 知道 什么 是 文本 打 标 。 文 本 打 标 幅 是 找 出 最 能 代表 这 个 文本 意义 的 一 些 词 
语 ， 这 里 涉及 两 个 方面 : 一 方面 是 打 标 词语 要 出 现 得 足够 多 ， 也 束 定 通过 对 文章 进行 词 频 统 
计 ， 在 通车 情况 下 出 现 多 的 词语 才 是 最 能 代表 文章 意义 的 ， 这 定单 从 一 篇 文章 的 角度 来 决定 
的 。 瓦 一 方面 ， 把 多 遍 文 草 放 在 一 起 来 比较 ， 类 似 于 “的 ”“ 征 ” 这 样 的 首 用 助词 可 能 在 每 坑 
文章 中 出 现 的 频率 都 很 高， 虽然 这 些 词 满 足 了 出 现 频率 高 的 要 求 ， 但 是 它们 并 不 能 作为 每 记 
文章 有 的 标签 ， 因 为 这 些 词 语 不 具 甸 个性。 所谓 个 性 就 是 当 我 们 把 多 遍 文 草 放 到 一 起 来 看 ， 要 
找 出 每 篇 文革 中 独特 的 词语 ， 也 就 是 某 个 词 可 能 在 文章 A 中 出 现 得 非 首 多 ， 在 其 他 文章 都 没 
怎么 出 现 ， 那 么 这 个 词 对 于 文章 A 来 齐 束 是 有 代表 性 的 ， 可 以 作为 标 等 来 代表 这 扁 文 草 。 


以 上 两 万 面 束 TF-IDF ix SSE Aa tie ASL. RAHE TF-IDF MNF MEXRI 
拆 开 理解 ， 对 某 个 词语 B, TF (Term Frequency) 表示 B 在 某 访 文革 中 出 现 的 频率 ，DF 
(Document Frequency ) 表示 出 现 词语 了 B 的 文章 上 右 到 所 有 文章 的 比例 。 只 有 TF 和 DF 进行 
Inverse, HERA, 才能 正确 地 表示 某 个 词语 在 对 应 菏 个 文章 的 IF-IDF 值 。 下 面 来 通过 
公式 推导 TF-IDF ff. 





































































































2. 算法 推导 
具体 的 TF-IDF 求解 过 程 是 通过 求解 TF 和 IDF 值 来 实现 的 。 这 里 先 设 置 几 个 谈 量 {t: 
表示 某 个 词 ，d: 表 示 某 篇 文章 ，D: 全 部 文 划 的 集合 }， 绝 对 值 符 写 | 表示 对 和 象 的 个 数 。 


( 1) 了 TF 值 求解 。TF 值 求解 一 般 是 依赖 分 词 和 词 频 统计 的 结果 , 我 们 举 一 个 例子 说 明 ， 
假设 有 这 样 的 一 个 文本 “我 爱 踢 足 球 ， 踢 足球 很 景 "。 通 过 分 词 和 词 频 统计 可 以 得 到 下 面 
的 结 采 {足球 :2， 跑 :2， 我 :1， 爱 :1， 系 :1， 人 很 :1}， 这 里 边 一 共 出 现 8 个 词 (足球 和 中 出 现 了 
两 次 ) 对 “足球 ”这 个 词 来 讲 ， 它 在 这 个 文本 文件 中 的 TF 值 就 是 2/8=0.25。TF 是 表示 的 
单个 词 在 对 应 的 文章 中 的 出 现 频率 ， 公 式 为 



































( 2) IDF 值 求 解 。IDF 的 值 表示 的 是 出 现 某 个 词语 t 的 文章 ， 占 到 总 文章 集合 的 白 分 
比 。 假 如 有 3 篇 文章 分 别 是 {“ 人 小 明 是 个 好 学 生 。”H “人 小明 喜欢 伴 果 。” 并“ 中国 真 大 。” }, 
这 里 “小 明 ” 的 DF 值 为 2/3。IDF 是 将 DF RIAL, FFA ADOT, WR Bie i 
的 概念 。IDF 的 公式 为 
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最 终 的 TF-IDF(&d,D)-TF(td) x IDF(1,D)。 以 上 就 是 TF-IDF 算法 的 推导 流程 ， 下 面 介 
绍 具体 在 工程 上 的 实现 。 


3. 工程 实现 


具体 使 用 TF-IDF 算法 时 需要 配合 分 词 和 词 频 统计 两 个 模块 来 进行 ,这 里 为 了 演示 方 
(E, 下 接 输 入 词 频 统计 处 理 好 的 数据 。 





doecel={ "at": 16; ueltbtils27, “sort 42, "Let "93 thle :32.) 
doc2={'tell':53,'be':46,'tea':43, 'what':46,'foot':65, “hack” 2.32} 
doc3={'soft':65,'this':67,'tell':78,'how':124,'foot':54} 


这 里 有 3 个 doc 作为 输入 ， 每 个 doc 里 包含 每 个 词 以 及 这 个 词 在 当前 doc 中 出 现 的 次 数 。 
示例 代码 如 下 。 


from math import log 


det tf (word,doc): 
all num-sum([doc[key] for key in doc]) 


return float(doc[word])/all num 


def idf (word,doc list): 
all num-len(doc list) 
word count-0 
for doc in doc list: 
if word in doc: 
word count+=1 


return log(all num/word count) 


def tfidf (word,doc,doc list): 
score=tf (word,doc)*idf (word,doc list) 


return score 


if name ==" main ': 
docl=f{rat"iT6; tell i132; Soft +4757 Lee" 2535 "this "4574 
doc2={'tell':53,'be':46,'tea':43,'what':46,'foot':65,'hack':32} 


doc3={'soft':65,'this':67,'tell':78,'how!':124,'foot':54} 


doc list=[doc1,doc2,doc3] 
i=1 
for doc in -doc list: 
PEINE *=9420 
print *docs$d' % i 


for word in doc: 


5.4 文本 分 析 算 法 


print '"%s":%f' % (word,tfidf (word,doc,doc list)) 


i+=1 


结果 如 下 。 


docl 
"this":0.000000 
"let":0.211733 
Soft 0s000000 
Vat S0 063919 
"tell":0.000000 
doc2 

"be" :0.177320 
"what™":0.177320 
"tea":0.165756 
"hack":0.123353 
"foot":0.000000 
"tell":0.000000 
doc3 
"this":0.000000 
"how":0.351103 
"foot":0.000000 
SOLE e000.00.00 
"tell1":0.000000 


通过 结 末 可 以 看 出 米 ， 对 “tel” 这 个 词 ， 虽 然 它 在 docl 中 出 现 的 次 数 很 多 ， 但 是 因 
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JJ "tell" Æ doc2 和 doc3 中 出 现 的 次 数 也 很 多 ， 所 以 “tell” 不 能 作为 docl 的 标签 ， 它 的 
TF-IDF 值 非常 低 。 册 计算 “how” 这 个 词 ， 它 在 doc3 中 出 现 的 次 数 很 多 ， 而 且 在 docl 和 
doc2 中 没有 出 现 ， 所 以 “how” 对 应 的 doc3 的 TF-IDF 值 非常 高 。 通 过 这 上 段 代 码 和 跑 出 来 
的 结果 ， 我 们 就 可 以 清晰 地 了 解 到 TF-IDF 算法 的 特性 。 


本 市 介绍 了 文本 分 析 中 的 常用 打 标 类 算法 TF-IDF, 这 个 算法 的 推导 非常 简单 , 需要 注 
意 的 一 点 是 TF-IDF 不 是 根据 词 在 菏 一 篇 文章 中 的 出 现 频 率 来 打分 ， 而 征 根据 词 对 文章 的 
代表 性 来 评估 。 寺 算 每 个 词 的 TE-IDF 值 不 但 可 以 得 到 文章 中 有 代表 性 的 词语 ，TF-IDF fH 
本 喘 也 可 以 作为 每 个 词 的 特征 值 配 合 分 类 算法 或 者 聚 类 算法 进行 训练 ， 所 以 玩 多 的 时 候 ， 
TF-IDF 值 并 不 是 一 个 文本 分 析 中 的 结 采 项 ， 而 是 作为 特征 值 来 使 用 。 















































o.4.3 LDA 





E~ 82128 TPE SOSH ER TAGE TE-IDF, fEXX— “TZ 
题 模型 算法 一 一 隐 含 炙 利 克 雷 分 布 ( Latent Dirichlet Allocation, LDA ), TF-IDF 和 和 LDA 是 
文本 挖 据 领 域 最 瘦 用 的 两 种 算法 ， 对 幻 学 者 来 说 ， 这 两 种 算法 看 上 去 比较 相近。TF-IDF 
计算 的 是 每 个 文 草 最 有 代表 性 的 词 ，LDA 计算 的 是 每 个 文章 的 主题 ， 所 以 在 介绍 LDA 之 
亲 ， 笔 者 乞 通 过 一 点 篇幅 来 介 绍 一 下 两 者 的 区 别 。 下 面 还 是 通过 一 个 例子 讲解 一 下 ， 假 设 
我 们 有 3 篇 文章 都 是 表示 足球 比赛 的 ， 这 3 遍 文章 分 别 是 《中 国 男 子 足 球 队 勇 夺 世界 杯 认 
《曼联 在 一 场 足球 和 完事 中 打败 了 利物浦 》 和 《足球 这 个 运动 上 只是 好 玩 》。 我 们 看 到 上 面 的 这 
3 篇 文 音 中 都 包含 了 一 个 词 “ 足 球 "”。 通 过 上 文 介 绍 的 TF-IDF 的 算法 原理 可 以 了 解 到 “ 足 
球 ” 这 个 词 在 每 一 扁 文 章 中 都 出 现 ， 那 么 这 个 词 束 不 能 代表 茶 一 扁 文 章 的 特性 ， 所 以 如 宋 
用 上 面 的 这 组 数据 计算 TF-IDF fH, “足球 ” 这 个 词 的 权重 会 非常 低 。 但 和 是 在 真实 的 业务 场 
景 中 ， 假 如 我 们 斋 望 给 每 一 入 文 章 打 标 ， 因 为 3 re CR "ABER" ARA, Sed DT 
不 锅 望 把 这 个 关键 词 省 去 ， 因 为 “足球 ”是 这 组 文章 的 主题 ， 这 个 时 候 束 需要 使 用 LDA 
算法 来 解决 问题 ， 下 面具 体 介绍 LDA 算法 的 原理 。 











































































































1. 基础 概要 


隐 含 狄 利克 雷 分 布 (Latent Dirichlet Allocation, LDA ) 是 文本 挖 据 领域 的 主题 模型 。 
LDA 是 一 种 无 监督 的 机 器 学 习 算 法 , 通过 大 规模 的 语 料 数据 训练 , 挖掘 出 其 中 潜在 的 一 些 
主题 ， 这 些 主题 可 以 代表 每 篇 文章 的 含义 。 这 里 再 介绍 一 下 主题 模型 的 含义 ， 主 题 模型 其 
实 是 用 来 挖掘 文档 中 间 隐 含 的 一 些 关 联 ， 这 种 关联 不 单纯 是 文档 间 出 现 相 同 词语 的 频率 。 
我 们 来 举 一 个 例子 ， 有 两 句 话 分 别 是 “乔丹 打球 真 棒 ” 和 “NBA 是 个 精彩 的 联赛 ”。 这 两 
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句 话 并 没有 出 现 相 同 的 词语 ， 但 是 它们 都 表示 与 篮球 相关 的 内 容 (乔丹 是 NBA 球星 ), Xx 
题 模型 就 是 用 来 挖掘 出 这 种 意义 相关 的 语句 。 


LDA 主题 模型 在 最 近 几 年 受 关注 度 很 高 ， 主 要 是 因为 LDA 在 许多 业务 领域 中 都 有 着 
不 错 的 表现 。 在 实际 的 业务 场景 下 挖掘 文章 的 主题 可 以 做 很 多 事情 ， bcd aep 
文章 的 标签, 然后 通过 标 等 进行 相关 性 的 推荐 。 例 如 我 们 拿 到 了 一 个 用 户 A DUAE 
LAR, 如 果 可 以 挖掘 出 这 一 批文 章 的 主题 有 哪些 ,就 可 以 大 至 推算 出 A 喜欢 阅读 的 文章 
汇 围 。 例 如 A 经 首 看 一 些 主题 是 “网 球 ”“ 费 德 副 ”的 文章 , 我 们 就 知道 A 喜欢 网 球 运动 ， 
进而 可 以 推送 网 球 相关 的 文章 给 他 。 另 一 个 主要 用 途 是 文章 分 类 ， 文 章 分 类 是 文本 领域 各 
用 的 一 个 场景 ， 如 果 能 通过 LDA 主题 模型 的 方式 把 每 篇 文章 的 主题 区 分 出 来 ， 将 相似 主 
题 的 一 类 文章 归 为 一 类 ， 将 会 有 不 销 的 效果 。 下 面 还 是 通过 一 个 例子 来 说 明 ， 例 如 有 3 $8 
新 闻 稿 , 通过 LDA 计算 得 到 的 主题 分 别 是 (“飞人 ”“ 球 星 ”“ 运 动 ”)、(“ 网 球 ” “装备 ”运动 ”) 
和 (“时 尚 %* “化 妆 ”“ 女 性 ”)， 那 么 右 可 以 很 容易 地 判断 出 来 前 两 个 文章 的 主题 相近 ， 应 该 
是 一 个 类 别 ， 因 为 这 两 个 文章 的 主题 都 关于 运动 ,相似 度 很 高 。 这 种 无 监督 场景 下 的 文章 
打 标 和 分 类 的 应 用 ， 在 很 多 时 候 对 文本 处 理 有 非常 大 的 意义 。 










































































2. 算法 推导 

现在 来 看 下 LDA 的 推导 过 程 ， 其 实 整个 LDA 算法 的 模型 推 寻 过 程 是 一 个 很 复杂 的 概 
率 计 算 流 程 ， 需 要 掌握 非常 多 的 数学 推导 公式 和 和 理论， 包括 多 项 式 分 布 、Dirichlet 分 布 和 
Gibbs 抽样 等 。 在 这 里 为 了 方便 大 家 理解 ， 我 们 用 相对 简洁 的 方法 描述 LDA 的 推导 过 程 。 


HIRIE LDA 的 几 个 概念 ， DIELE, eA. Fk, MEENA 
数据 ， 出 现 的 词语 可 以 通过 分 词 算法 来 得 到 。 于 是 ,我 们 可 以 假设 文章 和 词 两 者 是 已 知 条 
TF, 这 样 只 要 通过 已 知 条 件 求 得 未 知 的 “主题 ”看 上 去 跟 册 时 斯 模型 很 相近 , 通过 图 5-44 
可 以 表示 这 三 者 的 关系 。 


主题 


图 5-44 文章、 主题 、 单 词 关系 


等 号 左边 的 这 个 图 形 和 表示 的 是 每 祖 文 草 中 各 个 词语 的 概率 分 布 ,等 号 右边 第 一 个 矩形 
表示 每 个 主题 所 包含 词语 的 概率 分 布 , 最 右边 的 矩形 表示 每 个 文章 中 所 包含 主题 的 概率 分 
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布 ， 这 样 就 得 到 了 LDA 的 原始 公式 为 


P( 词 语 | 文档 )= > P( 词 语 | 主题 )x PERL | 文档 ) 


主题 





通过 上 面 的 这 个 概率 密度 公式 ， 我 们 融 可 以 抽象 出 文章 产生 的 场景 ， 下 面 介绍 如 何 通 
过 贝 叶 斯 公 却 来 生成 文章 。 


1) 当 我 们 准备 开始 写作 的 时 候 ， 我 们 移 考 碟 这 扁 文 章 的 主题 是 什么 、 有 哪些 ， 这 个 
主题 可 以 通过 主题 的 概率 分 布 来 狂 得 ， 对 应 上 而 公 式 中 的 P (主题 | 文档 )。 


2) 拿 下 了 主题 之 后 ， 当 我 们 起 笔 开 始 写 作 的 时 候 ， 束 会 从 这 个 主题 中 的 里 词 分 布 中 
选择 一 个 词 ， 这 个 词 一 定 要 符合 这 个 主题 的 概率 分 布 ， 对 应 的 是 P (词语 | 主题 )。 


3) 循环 遍历 整 篇 文章 ， 例 如 我 们 要 写 一 篇 500 个 词 的 作文 ， 就 把 上 面 的 1 和 2 步 又 
遍历 500 Wh, My SCRE RK I o 

下 面 再 来 简单 介绍 上 面 的 这 一 套 流 程 映射 到 数学 公式 中 的 表示 ,因为 具体 推导 过 程 过 
于 复杂 ， 束 不 详细 介绍 ， 有 具体 可 以 查看 关于 这 方面 的 论文 。 


。 通过 Dirichlet 分 布 取样 获得 生成 文档 的 主题 分 布 。 





















































e 通过 主题 的 多 项 陈 分 布 取样 ， 得 到 当前 文档 的 对 应 词语 的 主题 。 

。 通过 Dirichlet 分 布 取样 ， 得 到 所 生成 主题 的 词语 分 布 。 

。 从 词语 的 多 项 式 分 布 中 采样 得 到 生成 的 词语 。 

LDA 模型 的 中 心思 想 融 是 把 文章 生成 的 流程 看 作 一 个 词 袋 模型 , 不 停 地 通过 贝 叶 斯 概 
率 计 算出 可 能 出 现 的 词 填 充 进 去 。 这 个 过 程 中 并 没有 考虑 里 词 出 现 的 顺 厅 ， 所 以 如 来 古 通 
过 LDA 的 生成 结 霖 来 进行 文章 分 类 的 训练 ， 在 特征 工程 的 时 候 可 以 适当 选取 一 些 跟 里 词 
位 首相 天 的 特征 配合 LDA 模型 使 用 ， 这 梓 效 朱 更 佳 。 上 面 就 是 对 LDA 算法 的 推导 过 程 做 
一 个 简单 的 介绍 ， 下 面 通 过 一 个 开源 项 目 来 了 解 LDA 在 工程 上 面 的 使 用 方法 。 





















































3. 工程 实现 


实验 环境 是 Python 2.7， 在 MacOS 系统 下 ， 选 用 的 开 着 库 是 https://github.com/ 
ariddell/lda。 这 个 库 的 使 用 比较 方便 ， 而 且 可 以 目 动 多 取 路 透 社 的 文章 进行 实验 。 














(1) GRIM. Wit pip LAKE LDA JE. 
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prp install 1da 














(2) BASGI. SABARE, XA LDA 库 中 提供 了 应 用 程序 
#211 ( Application Programming Interface, API) 可 以 调用 路 透 社 的 数据 。 我 们 可 以 通过 下 
面 的 代码 打印 一 部 分 数据 。 











import numpy as np 

import lda 

import lda.datasets 

titles  lda.datasets.load reuters titles () 
for i in range(0,380): 


print titles[i] 


该 数据 是 一 些 新 闻 的 标题 ， 含 有 国家 、 地 区 、 标 题 内 容 和 时 间 这 几 个 字段 信息 ， 如 
5-45 所 示 。 


UK: Prince Charles spearheads British royal revolution. LONDON 1996-08-20 
GERMANY: Historic Dresden church rising from WW2 ashes. DRESDEN, Germany 1996-08-21 
INDIA: Mother Teresa's condition said still unstable. CALCUTTA 1996-08-23 
UK: Palace warns British weekly over Charles pictures. LONDON 1996-08-25 

INDIA: Mother Teresa, slightly stronger, blesses nuns. CALCUTTA 1996-08-25 
INDIA: Mother Teresa's condition unchanged, thousands pray. CALCUTTA 1996-08-25 
INDIA: Mother Teresa shows signs of strength, blesses nuns. CALCUTTA 1996-08-26 
INDIA: Mother Teresa's condition improves, many pray. CALCUTTA, India 1996-08-25 
INDIA: Mother Teresa improves, nuns pray for "miracle". CALCUTTA 1996-08-26 
UK: Charles under fire over prospect of Queen Camilla. LONDON 1996-08-26 

UK: Britain tells Charles to forget Camilla. LONDON 1996-08-27 

COTE D'IVOIRE: FEATURE - Quiet homecoming for reprieved Ivory Coast maid. ABIDJAN 1996-08-28 
INDIA: Mother Teresa ("I want to go home") sits and prays. CALCUTTA 1996-08-28 
INDIA: Mother Teresa nears end of crisis, nuns rejoice. CALCUTTA 1996-08-28 

UK: Prosaic end for marriage of Charles and Diana. LONDON 1996-08-28 

UK: No respite for British royals despite divorce. LONDON 1996-08-28 

UK: Camilla, love of Charles' life, an unlikely queen. LONDON 1996-08-28 

UK: Diana sets out on new life as single woman. LONDON 1996-08-28 

USA: 0.J. Simpson attacks media, hints at lawsuits. WASHINGTON 1996-08-28 

USA: U.S. Cardinal Bernardin has one year or less to live. CHICAGO 1996-08-30 


5-45 ”路 透 社 数据 








(3) 求解 P (词语 | 主题 )。 在 算法 推导 的 环节 已 经 介绍 了 LDA 模型 的 三 元 组 组 成 ， 
其 中 很 关键 的 一 个 概率 分 布 就 是 每 个 主题 下 面 都 包含 哪些 词语 , 现在 就 来 验证 路 透 社 的 数 
据 究竟 每 个 主题 下 面 都 有 哪些 词语 ,设置 主题 的 数量 是 20 个 ， 每 个 主题 需要 包含 8 个 词 
语 ， 代 码 如 下 。 























import numpy as np 
import lda 
import lda.datasets 


A = Lda,datesets.load reuters () 
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vocab = lda.datasets.1load reuters vocab () 
titles = lda.datasets.load reuters titles () 
model = lda.LDA(n topics=20, n iter=1500, random state-l) 
model.fit(X) # model.fit transform(X) is also available 
topic word = model.topic word  # model.components also works 
n top words - 8 
for ip topic dist am enumerate (topic word) + 
topic words = np.array (vocab) [np.argsort (topic dist) ][:-(n_ top words+1) :-1] 


print(' Topic {}: {}'.format(i, ' '.join(topic words) ) ) 





mA SRLS P RET EMA UAR CILE 5-46 )。 


british churchill sale million major letters west britain 

church government political country state people party against 
elvis king fans presley life concert young death 

yeltsin russian russia president kremlin moscow michael operation 
pope vatican paul john surgery hospital pontiff rome 

family funeral police miami versace cunanan city service 

simpson former years court president wife south church 

order mother successor election nuns church nirmala head 

charles prince diana royal king queen parker bowles 

film french france against bardot paris poster animal 

: germany german war nazi letter christian book jews 

: east peace prize award timor quebec belo leader 

: n't life show told very love television father 

: years year time last church world people say 

: mother teresa heart calcutta charity nun hospital missionaries 

: city salonika capital buddhist cultural vietnam byzantine show 

: music tour opera singer israel people film israeli 

: church catholic bernardin cardinal bishop wright death cancer 

: harriman clinton u.s ambassador paris president churchill france 
: city museum art exhibition century million churches set 


5-46 主题 对 应 的 单词 


0: 
; 
2 
cE 
4: 
Ss 
6: 
rir 
8: 
9: 























REWENA SAS A Sal, 需要 注 总 的 是 , HWRE X90 HAA 
味 着 这 些 单词 具有 相同 的 含义 ， 只 能 说 明和 它们 可 以 隐 含 地 表示 同一 类 主题 。 为 外 ,我 们 还 
可 以 获得 每 个 单词 在 对 应 主题 下 的 权重 ,有 了 每 个 主题 对 应 的 单词 记 表 ， 束 可 以 方便 我 们 
进行 文章 的 分 类 操作 。 


( 4) 求解 P (主题 | 文档 ) 下 面 来 计算 每 一 扁 文 草 对 应 的 主题 是 什么 ,本 实验 中 我 们 
只 打印 出 每 个 文章 所 对 应 权重 最 大 的 主题 ， 代 但 实 现 如 下 。 



































import numpy as np 
import lda 
import lda.datasets 


X = lda.datasets.load reuters () 
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vocab = Lda.datasets.load reuters vocab () 

titles = Lldadatasets.losd reuters titles () 

model. = lda.LDA(n topics=20, n .iter-1500, random state=1) 
model.fit(X) # model.fit transform(X) is also available 
doc topic = model.doc topic 

for i in range(10): 


print("{} (top topic: {})".format (titles[i], doc topic[i] .argmax())) 





这 里 只 打印 了 前 10 个 文章 所 对 应 的 主题 ， 结 末 如 图 5-47 Aras. 


UK: Prince Charles spearheads British royal revolution. LONDON 1996-08-20 (top topic: 8) 

GERMANY: Historic Dresden church rising from Ww2 ashes. DRESDEN, Germany 1996-08-21 (top topic: 13) 
INDIA: Mother Teresa's condition said still unstable. CALCUTTA 1996-08-23 (top topic: 14) 

UK: Palace warns British weekly over Charles pictures. LONDON 1996-08-25 (top topic: 8) 

INDIA: Mother Teresa, slightly stronger, blesses nuns. CALCUTTA 1996-08-25 (top topic: 14) 

INDIA: Mother Teresa's condition unchanged, thousands pray. CALCUTTA 1996-08-25 (top topic: 14) 
INDIA: Mother Teresa shows signs of strength, blesses nuns. CALCUTTA 1996-08-26 (top topic: 14) 
INDIA: Mother Teresa's condition improves, many pray. CALCUTTA, India 1996-08-25 (top topic: 14) 
INDIA: Mother Teresa improves, nuns pray for "miracle". CALCUTTA 1996-08-26 (top topic: 14) 

UK: Charles under fire over prospect of Queen Camilla. LONDON 1996-08-26 (top topic: 8) 


5-47 文章 对 应 主题 
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通过 图 5-47 可 以 看 到 每 一 篇 文章 最 后 面 的 括号 中 内 容 表示 了 文章 对 应 的 主题 编号 , 可 
以 在 图 5-46 中 查找 具体 每 个 主题 都 包含 哪些 词语 , 这些 词语 就 可 以 用 来 对 文章 的 含义 进行 
打 标 。 另 外 ， 如 果 需 要 获得 每 篇 文章 所 对 应 主题 的 权重 分 布 也 是 可 以 实现 的 。 


以 上 束 是 我 们 通过 使 用 开源 LDA 库 ， 针 对 路 透 社 数据 进行 的 主题 计算 。LDA 坪 一 种 
TEAST TE SUG FAAP AS) IZA RE, AON LDA 的 基础 知识 、 理 论 推 导 以 及 工程 
实现 进行 了 简单 介绍 ， 主 题 模 型 的 算法 实现 非 间 复杂， 建议 仔细 阅读 相关 的 算法 代 介 以 加 
次 理解 。 因 为 文本 分 析 的 计算 量 相对 较 大 并 且 LDA 的 计算 复 洒 度 较 高 ， 所 以 在 企业 级 应 
用 中 推荐 使 用 分 布 式 计 算 的 方式 实现 。 



























































5.5 ”推荐 类 算法 


随 看 互联 网 的 普及 ， 人 们 在 生活 中 的 很 多 行为 以 及 思维 万 式 部 得 到 了 改变 。 在 上 个 世 纪 
人们 习惯 跟风 ， 以 罕 衣 服 为 合 ， 一 旦 流 形 了 一 个 潮流 ， 大 街 小 巷 都 是 军 类 似 风 格 衣服 的 人 。 
但 是 这 种 现象 正在 这 渐 被 改变 ， 如 今 流 形 的 一 句 话 束 是 “个 性 化 ”。 个 性 化 体现 在 了 罕 衣 服 、 
吃饭 及 说 话 等 各 种 日 前 行为 中 。 网 络 购物 的 场景 下 流行 的 是 个 性 化 推荐 , 这 里 个 性 化 的 意思 
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是 不 同人 进入 淘宝 ,推荐 给 每 个 人 的 产品 是 不 同 的 , 这 种 推荐 不 是 随机 生成 的 而 是 有 根据 的 。 
但 是 我 们 是 依据 什么 建立 起 了 个 性 化 推荐 系统 呢 ? 对 一 个 商业 化 的 推荐 系统 , 依赖 的 算法 或 
者 是 考虑 的 因素 有 很 多 ， 本 文 将 针对 最 为 闸 见 的 一 种 推 存 算 法 进行 介绍 一 一 协同 过 滤 。 


协同 过 滤 ( Collaborative Filtering, CF) UA, 是 一 种 基于 类 别 的 推荐 算法 。 其 实 可 以 
用 一 句 谚 语 来 解释 协同 过 滤 算 法 : 物 以 类 聚 ， 人 以 群 分 。 协 同 过 滤 最 核心 的 理念 束 是 找 出 
爱好 相同 鸭 人 或 者 属性 相似 的 物 。 这 里 有 一 个 次 在 设 定 束 是 ， 爱 好 相同 的 人 对 特定 产品 的 
偏好 性 是 近似 的 。 这 样 的 场景 在 我 们 的 生活 中 也 有 很 多 体现 ， 如 两 个 人 A 和 B， PES AB St 
欢 吃 相似 口味 的 菜 ， 突 然 餐 厅 今 天 出 了 一 道 新 的 薪 品 ，A 觉得 这 道 新 薪 的 味道 不 钳 ， 那 么 
B 高 欢 这 道 采 的 概率 一 定 也 很 大 ， 因 为 A 和 B 在 平日 里 都 有 相似 的 饮食 偏好 。 


协同 过 滤 作 为 经 典 的 推荐 算法 在 工业 界 已 经 得 到 了 很 多 的 应 用 , 最 早 是 由 亚马逊 提出 
并 且 应 用 于 网 上 书店 的 推荐 。 多 年 以 前 , 亚 蕊 提 书 店 一 项 为 人 津津 乐 道 的 服务 束 是 当 用 户 购 
买 一 本 书 的 时 候 ， 马上 会 在 下 和 面 看 到 一 行 “Customer who bought this item also bought”, MV 
马 还 电 商 六 人 台 以 人 的 阅读 品味 作为 区 分 进行 推荐 ， 这 就 是 一 个 典型 的 协同 过 滤 应 用 场景 。 






















































































1. 基础 概要 

上 面 讲 了 协同 过 渡 的 核心 思想 , 这 里 来 看 一 下 这 个 算法 具体 的 概念 有 了 哪些 , 通 辣 来 讲 ， 
根据 推荐 的 维度 不 同 把 协同 过 滤 分 为 两 种 一 种 是 基于 人 的 推荐 ， 叫 UCF ( User-based 
Collaborative Filtering )， 瑟 一 种 是 基于 物品 的 推荐 ， 叫 ICF ( Item-based Collaborative 
Filtering )。 下 面 解释 两 种 CF 的 不 同 。 


e UCF。 基 于 人 的 偏好 进行 推 基 ， 从 全 量 数 据 集中 找 出 哪些 人 是 有 相同 偏好 的 ， 针 对 
人 和 群 之 间 的 相似 偏好 性 进行 推荐 。 通 过 一 个 例子 讲解 ,假设 A 和 B 喜欢 的 运动 种 
类 相似 ， 说 明 他 们 在 体育 方面 有 相似 的 仿 好 。 当 A 喜欢 另 一 种 运动 C， 而 B 没有 
做 过 C 这 种 运动 时 ， 我 们 认定 B EEX C, HHE C 推送 给 B。 这 是 典型 的 以 人 
为 基础 的 推荐 ， 所 以 称 为 User-based。 


e ICF, ICF 定 基 于 物品 的 推 存 ， 从 物品 的 角度 移 找 到 相似 度 高 的 商品 ， 然 后 进行 推 
t£. XJ ICF 这 样 的 场景 ， 数 据 挖 据 领 域 有 一 个 经 典 的 案例 束 是 “尿布 与 啤酒 ”的 故 
事 。 次 尔 于 超市 经 过 大 量 的 数据 统计 发 现 了 一 个 规律 , EDR A PPS E RS 
家 问 时 购买 ,于 是 它们 把 尿布 和 啤酒 的 货 殿 放 到 了 一 起 ,从 而 提 融 了 商品 的 销售 量 ， 
“尿布 与 啤酒 ”是 典型 的 ICF 应 用 采 例 。 通 瘦 来 讲 ， 我 们 将 总 识 理 解 的 相似 物品 的 
概念 是 指 商品 属性 方面 的 相似 , 如 篮球 和 足球 是 一 对 近似 物品 , 因为 它们 都 是 球 类 。 
但 是 在 “尿布 和 啤酒 ”这 个 季 例 中 ， 两 个 物品 似乎 不 具备 属性 相似 的 特点 。 这 也 是 
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ICF 算法 的 特点 ， 它 古 其 于 大 量 的 数据 统计 信息 来 进行 推荐 , ST DTH Re Batik 
天 条 的 物品 对 。 


下 面 通过 一 个 例子 说 明 ， 假如 我 们 有 一 份 用 户 购 物 数 据 ( 见 表 5-9 )。 








表 5-9 Hi Pu 
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WS AACA TI ACE, ih A 和 商品 C 总 是 同时 出 现在 客户 的 购物 框 中 ， 我 们 











可 以 假设 A 和 C ce ARSE, RESCH “DR” A “TREE” APE, RPI AR 























TEA ENAIRE H EASE A ey al ir, [Hx SBA a EHE N(R, MZ 10000 
条 购买 记录 ,其 中 A 和 C 同时 出 现在 购物 车 的 数量 是 9000 28, HAIEK LAL Benita BS 
联 的 关系 。 这 个 时 候 当 另 一 个 用 户 内 购买 了 A 的 时 候 , 残 推 测 他 可 能 也 会 天 C, FEREN 
m C 推送 给 用 户 内 。 实 际 在 工业 化 使 用 过 程 中 ，ICF 弟弟 可 以 起 到 比较 好 的 效 采 。 

















2. 算法 推导 
通过 上 面 的 算法 的 介绍 , 其 实 可 以 看 到 无 论 是 ICF 或 是 UCE, 算法 的 推导 过 程 中 的 核 









































心 束 是 聚 类 ， 也 束 是 计算 向 量 距 离 。 把 用 户 的 购买 的 每 个 商品 看 作 同 量 中 的 一 个 维度 ， 然 














后 通过 数学 的 同 量 距离 求解 方法 找到 关联 的 User 或 者 tem。 适合 协同 过 滤 算 法 的 同 量 距 
离 解 法 有 很 多 ,这 里 选取 两 种 最 沼 用 的 距离 求解 方法 来 介绍 : 欧 几 里 德 距离 和 皮尔 逊 相关 























(1) 欧 儿 里 得 距离 。 欧 式 距 离 可 以 搬 述 两 点 在 n 维 空间 的 真实 距离 ， 求 解 万 法 比较 简 





H, BAWA n 维 向 量 x=(xiyxy,x3…"Xn) 和 和 y=(yi,ywy3…ys)， 那 么 这 两 个 向 量 的 的 欧式 距离 
公式 可 以 表示 为 


d(x,y) = 








在 实际 的 工程 中 ， 我 们 可 能 需要 把 结 未 控制 在 0 到 1 之 间 ， 所 以 可 作 如 下 处 理 : 
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sim(x, y) = 1+d(x,y) 

















(2) APIKA. KRIK ZZ CE PI on 12s Hoe ts FAERIE e 
BC GEMEER: AR BORE RT VA FR RE TR BAT at TA RIE, 计算 结 未 定 介 于 1 和 -1 间 的 


























值 ，1 表示 完全 正 相 关 ，0 表示 无 关 ，-1 ANTE TAR. BORGÉMHORORANBU ZU 


n n n 
n? i Xy 79 x». Yi 
i=l jd — i=l 


p(x, y)= 





下 面 介 绍 具体 的 代码 实现 。 


3. 工程 实现 
通过 简单 的 代 介 实现 UCF 如 下 。 


from math import sqrt 


def sim distance(prefs,personl,person2): 
SI 
for item in prefs[personl]: 
if item in prefs[person2]: 
si[item]-1 
if len(si)==0: 
return 0 
sum of squares-sum([pow(prefs[personl][item]-prefs[person2][item],2) fo 


r item in prefs[personl] if item in prefs[person2]]) 
return 1/(1*sqrt(sum of squares)) 


def sim pearson (prefs,pl,p2): 
si={} 
for item in prefs[pl]: 


if item in prefs[p2]: 


si[item]-1 
n=len (si) 
if n==0: 
return 1 
suml=sum([prefs[pl] [it] for it in sil) 


sum2-sum([prefs[p2][it] for it in sil) 


sumlSq=sum([pow(prefs[pl][it],2) for it in sil) 


sum2Sq=sum([pow(prefs[p2][it],2) for it in sil) 


pSum-sum([prefs[pl][it]*prefs[p2][it] for it in sil) 


num-pSum- (sum1*sum2/n) 


den-sqrt((sumlSq-pow (suml,2)/n)* (sum2Sq-pow (sum2,2) /n)) 


if den==0: 


return 0 


r-num/den 


return r 


def topMatches (prefs,person,n=5,similarity=sim pearson): 


scores=[(similarity(prefs,person,other),other) for other in prefs if ot 


her!-person] 


scores.sort() 
Scores.reverse() 


return scores[0:n] 


def getRecommendations (prefs,person,similarity-sim pearson): 


totals={} 
SimSums= { } 
for other in prefs: 
if other--person: 


continue 
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sim-similarity(prefs,person,other) 


if sim<=0: 
continue 
for item in prefs[other]: 
if item not in prefs[person] or prefs[person][item]-- 
totals.setdefault (item, 0) 


totals [item]+=prefs[other] [item] *sim 


simSums.setdefault (item, 0) 


simSums [item]+=sim 
rankings-[(total/simSums[item],item) for item,total in totals.items()] 
rankings sort) 


rankings.reverse () 


return rankings 





e sim distance AŽ: KA person 的 欧 儿 里 德 距 离 。 
e sim_pearson AŽ: KA person 的 皮尔 运 相 关系 数 。 
topMatches 函数 : 返回 跟 输 入 person 的 相似 性 排名 结果 。 


getRecommendations 国 数 : 针对 person wt, THEE 


下 面 珊 入 一 组 数据 观察 运行 结 朱 。 我 们 的 场景 是 根据 用 户 对 歌曲 的 打分 〈5 a 9 
分 ) 挖 据 出 品味 相似 的 用 户 , 并 且 针 对 这 种 天 联 的 天 系 进行 推 存 , 数据 集 见 表 5-10 所 不。 


表 5-10 数据 集 


K 5-10 表示 每 一 行 (4 用户 ) 针对 每 一 列 ( 歌曲 ) 的 评分 ， 如 来 为 空 则 表明 该 用 户 没 有 
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听 过 这 一 首 歌 ， 将 这 份 数据 市 入 前 面 的 代码 跑 出 来 的 结果 如 下 。 
(1) topMatches。topMatches ( 数据 集 ,"Tom' ) 通过 皮尔 还 系 数 求 距离 的 结果 为 
[(0.9819805060619666, 'Jack'), (0.0, 'Michael'), (-0.5, 'Petter')] 


Hr, Jack 和 Tom 是 正 相 关 ， 说 明 他 们 对 音乐 的 品味 是 相近 的 。Michael 和 Tom 的 皮尔 还 
系数 是 0， 说 明 他 们 的 音乐 品味 没有 关联 。Petter 和 Tom 是 负 相 关 ， 表 示 他 们 的 音乐 品味 
是 相反 的 。 


topMatches (数据 集 ,Tom' ) 通过 欧 几 里 德 求 距离 的 结 末 为 

















[(0.6666666666666666, 'Jack'), (0.25824569976124334, 'Petter'), (0.25, 'Michael')] 


这 表明 Tom XT IR ae 5 Jack, Petter, Michael 的 吹 氏 距离 水 渐变 小 。 我 们 不 难 发 现 Tom 
与 Jack 是 首 乐 品味 正 同 强 关 联 的 人 。 








(2) getRecommendations, getRecommendations ( critics, Tom' ) 的 输出 结果 为 


[(3.5, 'Sugar'), (3.0, 'Baby'), (2.5, 'Sorry')] 


因为 通过 之 前 距离 求解 结果 已 经 可 以 确认 Tom 和 Jack EAIA, RITA BIE 
存 给 Tom 的 歌曲 都 是 Jack 听 过 而 Tom 没 听 过 的 。 这 种 推荐 方式 束 古 协同 过 小 中 最 简单 的 
实现 ， 本 条 例 条 用 的 万 法 从 结 末 推 存 层 徊 来 看 比较 粗 夫 ,在 实际 的 使 用 场景 中 需要 对 里 向 
的 很 多 环 世 进行 优化 才能 达到 一 个 比较 好 的 效果。 

寺 面 介绍 完 协 癌 过 滤 算 法 后 ， 带 助 大 家 对 最 基础 版 的 推荐 引擎 有 了 一 个 初步 了 解 。 其 
实 真正 的 推荐 引擎 背后 是 有 非常 多 算法 作为 文 掺 ， 协 问 过 小 往往 只 是 其 中 的 一 个 分 文 。 协 
问 过 着 算法 通过 挖掘 出 相似 的 人 或 者 物 进 行 推荐 ， 核 心 其 实 是 聚 类 的 思想 。 
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上 面 介 绍 了 很 多 分 类 和 聚 类 等 场景 的 算法 ， 本 节 主要 会 介绍 关系 图 算法 ， 这 里 的 图 算 
法 不 是 指 图 像 识别 算法 ,而 是 指 输入 的 数据 源 是 呈 图 状 结构 的 ， 我 们 通过 网 图 中 不 同 对象 
之 间 的 关系 来 进行 数据 挖 气 。 先 来 介绍 图 状 结构 的 数据 ， 图 状 数 据 也 可 以 叫 网 状 数据 ， 强 
调 的 是 彼此 的 关联 ， 通 过 “点 ”“ 边 ”两 个 概念 构成 ， 每 个 “点 ”对 应 数据 集中 的 一 个 对 
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象 ， 它 们 通过 菏 种 关系 构成 “ 边 ” 然 后 连接 人 彼此。 图 5-48 中 可 以 看 到 有 A、B、C、D、E 
Jt 5 个人， 他们 之 间 通 过 通话 天 系 建立 连 授 ， 其 中 A HR CEA 
通话 记录 的 ，A IR BBA WAC. PESO AEN RR 
仅 此 则 的 通联 关系 ， 即 关系 图 算法 的 使 用 汇 围 。 


关系 图 算法 的 核心 是 Community， 我 们 可 以 通过 算法 挖掘 
天 系 网 络 中 的 主要 成 分 、 了 预测 行 车 轨迹 的 最 短路 公 、 判 晰 社交 
网 络 中 人 委 此 的 杀 黎 程度 、 做 金融 行业 的 风险 管控 等 。 图 算法 的 
种 类 其 实 有 很 多 ， 本 和 章 将 重点 介绍 关系 图 自 法 中 运用 较 多 的 两 图 5-48 图 天 系 
个 算法 ， 分 别 是 标签 传播 和 迪 杰 斯 特 拉 (Dijkstra ) 最 短路 径 算法 。 









































9.6.1 标签 传播 


标 丛 传播 算法 ( Label Propagation Algorithm, LPA ) 是 主流 的 关系 图 算法 之 一 ， 通 过 
介绍 标签 传播 算法 希望 大 家 可 以 对 图 状 结 构 的 数据 处 理 有 一 个 基本 的 认识 。 标 签 传播 在 
文章 的 检索 以 及 社区 的 关系 挖 握 方 面 都 有 很 广泛 的 用 途 ， 下 面 来 详细 介绍 一 下 标签 传播 


ara 
算法 。 




















1. 基础 概要 

标 等 传播 算法 是 2002 年 提出 的 一 种 基于 图 数据 的 半 监 督 方法 。 前 面 的 章节 中 介绍 了 
监督 学 习 算法 ， 如 用 来 分 类 的 逻辑 回归 和 SVM 等 ， 也 介绍 过 无 监督 学 习 算法 K-means 和 
DBSCAN, LPA 是 本 书 唯一 介绍 的 半 监 丢 机 融 学 习 算 法 。 半 监督 算法 有 非 汕 好 的 特性 ， 
为 我 们 部 知道 机 带 学 习 需 要 大 量 的 训练 桩 本 才能 保证 最 终结 未 的 准确 性 , 但 是 标 记 大 量 的 
标本 需要 消耗 很 大 的 资源 , 半 监 督 算法 允许 我 们 只 对 部 
分 样本 进行 标注 束 可 以 训练 模型 。 


LPA 的 基本 原理 是 在 一 个 庞大 的 数据 集合 当中 ,已 
知 其 中 一 部 分 的 标记 数据 ， 然 后 通过 数据 间 彼 此 的 联 
A, 最 后 得 到 全 部 数据 的 标记 结 末 。LPA 可 以 理解 成 是 
一 个 已 知 结 朱 数据 癌 未 知 结 末 数 据 的 传递 过 程 。 这 里 还 
挟 通 过 一 个 金融 风 探 的 例子 直 一 下 LPA 完 葛 能 做 什么 
事情 。 图 5-49 HPAES BUR AON ESA RE POR, E 
RAR AURA, WR BITE A A REHA, 5-49 ”欺诈 关系 
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F 是 信用 很 蜗 的 用 户 。 


通过 标签 传播 算法 可 以 将 每 个 人 的 属性 从 A 和 F 开始 传播 , 直到 计算 出 全 图 所 有 对 象 
是 欺诈 用 户 的 概率 以 及 信用 用 户 的 概率 ,传播 的 方式 也 很 简 早 ， 根 据 距 离 的 远近 (十 否 有 
连通 ) 来 判断 。 例 如 B 跟 A EÑ, (HÆ B ik FAEM, MA A 抑 把 欺诈 用 户 的 属性 传递 
给 B， 但 是 在 传递 过 程 中 这 种 属性 会 随 肴 传播 的 距离 增加 而 攻 减 ，E 把 信用 用 户 的 属性 传 
递 给 G， 然 后 再 通过 G 把 信用 属性 传递 给 B。B 通过 一 级 传播 就 可 以 连接 到 欺诈 用 户 ， 但 
挟 要 通过 两 次 传播 才 可 以 连接 到 信用 用 户 , 于 是 了 B 是 欺诈 用 户 的 概率 会 比较 大 。 当 我 们 用 
这 种 规则 把 全 表 通 爵 一 过 后 ， 头 可 以 得 到 每 个 人 的 鞭 诈 指数 ， 拿 到 这 样 的 数据 风 可 以 帮助 
金融 机 构 做 风 控 ， 而 且 因 为 是 半 监 督学 习 ， 所 以 数据 的 打 标 难度 并 不 会 很 大 。 


通过 上 面 的 介绍 ,我们 可 以 大 致 了 解 到 ,， 标 等 传播 算法 是 利用 已 知 打 标 数据 的 信息 在 
关系 网 状 中 传播 , 然后 计算 出 其 他 未 标记 过 对 象 的 目标 属性 。 标 等 传播 具备 算法 实现 简单 、 
执行 时 间 短 及 复杂 度 低 等 优点 ， 在 很 多 场景 下 都 有 应 用 ， 下 面 介绍 如 何 通过 数学 公式 推导 


实现 标 等 传播 算法 。 


































































































2. 算法 推导 

标 等 传播 算法 基于 关系 图 状 的 数据 ,数据 中 有 打 标 和 未 打 标 的 数据 。 在 算法 癌 下 传播 
的 过 程 中 ， 先 从 打 标 的 数据 向 下 传播 ， 打 标 过 的 数据 的 Label 和 是 不 变 的 ， 未 打 标的 数据 是 
需要 预测 的 数据 集 ， 它 们 的 Label 会 随 着 不 断 有 标签 信息 传播 过 来 而 变化 。 我 们 现在 通过 
公式 来 一 步 一 步 推导 标签 传播 算法 的 实现 流程 。 


C1) 计算 边 权 重 。 假 设 把 某 一 种 属性 从 点 x 传播 到 点 %y， 边 权重 的 计算 的 计算 方法 为 


d; 
Wi = €xp DUE 
a 


H, exp 表示 以 e 为 底 取 对 数 ，di 表示 xi 到 o; ATES, Za 用 来 调节 边 权 重 的 计 
算 结 果 。 通 过 上 面 的 公式 可 以 计算 出 来 ， 当 两 点 的 距离 越 拒 ， 也 就 是 传播 距离 越 乱 ， 这 两 
点 的 边 权 重 越 大 ; 当 两 点 的 距离 越 远 ， 边 权重 越 小 。 这 一 点 也 比较 容易 理解 ， 因 为 “ 近 朱 
Hop, WEBRGTAR . ， 数 据 集合 中 每 个 点 肯定 是 受到 最 邻近 的 点 的 影响 较 大 。 

(2) 计算 转移 概率 。 得 到 边 的 权重 之 后 要 计算 从 点 x 传播 到 点 % 的 传播 概率 Pj, XE 
我 们 假定 x 是 已 经 打 标 好 的 数据 ， 这 个 值 PB 表示 的 是 x 的 标签 对 点 鸭 的 有 影响。 具体 的 公 
式 为 
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W;; 
l 
p.e J 


L 


L] n 
2 Why 
k=l 


如 图 5-50 Aran, A 和 B 都 想 把 自己 的 打 标 结果 传 给 C， 但 是 C 只 能 有 一 个 目标 结果 。 
这 个 时 候 就 需要 A 和 B 到 C 的 边 权重 进行 比 对 ， 也 就 是 比 
较 Wac PU Wasc 的 大 小 , 边 权 重 更 大 的 一 方丈 更 有 资格 决定 C W— 
































的 目标 结果 。 Tcu 
(3) 循环 遍历 。 对 整个 关系 图 结构 的 数据 全 部 遍历 一 Bw 

i, 直到 标签 值 传播 到 了 整个 数据 集 并 且 收 剑 , 就 可 以 得 到 EP 

标签 传播 的 最 终结 果 。 图 5-50 ”转移 概率 














VA ERED AES TR TEA aE Seal Be, 下 面 介绍 如 何 使 用 开 产 项 目的 标签 传 播 算法 
解决 问题 。 
3. 工程 实现 


本 和 面 主要 介绍 了 标签 传播 算法 的 基础 知识 以 及 公式 推导 原理 , 在 这 一 小 方 通过 开源 项 
H Sklearn 实际 运用 一 下 标签 传播 算法 。 实 验 环境 是 Python 2.7, AZ Mac OS, 




















ae ee es Numpy 以 及 SciPy 库 。 








Sklearn 是 笔者 非 浓 喜欢 的 一 个 开源 的 机 器 学 习 库 ， 是 通过 Python 来 实现 的 ， 几 乎 涵 
六 本 全 部 的 科学 计算 算法 ， 官 方 地 址 为 http://scikit-learn.org/。 


安装 Sklearn 也 非常 地 简 蛙 : 
pro install -U scikit-learn 
安装 好 之 后 束 可 以 调用 Sklearn 里 面 的 LabelPropagation 算法 进行 试验 ,实验 代码 如 下 。 


from sklearn import datasets 

from sklearn.semi supervised import LabelPropagation 

import numpy as np 

label prop model - LabelPropagation() 

iris = datasets.load iris () 

random unlabeled points = np.where (np.random.randint(0, 2,size-len(iris.target))) 


labels = np.copy(iris.target) 
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labels[random unlabeled points] - -1 


Label prop model.trt(rris.ddiay; Labels) 
index=0 
for i in range(O,len(iris['target'])): 
if (iris['target'][i])==(label prop model.predict (iris.data) [i]): 
index=indextl 
print 'The right number of prediction: '+str (index) 


print 'The total number of dataset: '+str(len(iris['target'])) 


下 面 对 整 个 代码 结 采 进行 拆 解 。 


CI) SORR. Pel TE Sklearn HFHJI 天 取 接 口 iris = datasets.load_iris() 得 到 开源 
数据 源 iris， 这 个 数据 集 是 一 个 机 器 学 习 领 域 的 经 典 数 据 集 ， 在 很 多 论文 中 都 能 看 到 。 我 们 
可 以 通过 打印 iris 字段 查看 数据 。 这 个 数据 集 包含 150 条 数据 ， 有 4 个 特征 ， 每 组 数据 被 打 
标 为 0、1、2( ll Label 字段 ) 这 3 种 可 能 性 。 这 里 截取 部 分 数据 显示 ( 见 表 5-11 )。 
































表 5-11 开源 数据 集 


(2) 生成 羊 监督 数据 。 因 为 我 们 恋 取 到 的 数据 都 是 打 标 过 的 ， 而 标 等 传播 算法 针对 的 
尽 半 监 督学 习 的 数据 集 ,， 所 以 需要 把 部 分 数据 的 打 标 值 Label 列 去 择 ,， 随 机 采样 一 些 数据 ， 
并 把 它们 的 目标 值 标记 为 -1， 代 人 码 如 下 。 





























random unlabeled points = np.where(np.random.randint(0, 2,size-len(iris.target))) 
labels = np.copy(iris.target) 


Labels [random unlabeled: points]: = - 


(3) 训练 模型 并 且 预 测 。 通 过 Sklearn SI OF APNE SHEET AE I ae SEE 1 VI 
练 和 预测 ， 代 但 如 下 。 








tapel prop model strt (iris datar Labels) 


述 代 人 码 可 以 打印 出 这 个 模型 观察 相关 的 参数 设置 以 及 预测 结 
(4) 结 末 评估 。 通 过 如 下 代码 对 标签 传 播 的 结 末 进行 评估 ,采取 预 测 值 和 源 数 据 的 卓 
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标 全 进行 比 对 的 方法 。 


index=0 
for i in range(O,len(iris['target'])): 
if (iris['target'][i])==(label prop model.predict(iris.data) Til): 
index-index-41 
print 'The right number of prediction: '+str (index) 


print 'The total number of dataset:'-t*str(len(iris['target'!'])) 


最 终 得 到 的 结 采 ( 见 图 5-51) 有 146 个 标本 预测 正确 ， A 4 EPA SUI 


The right number of prediction:146 
The total number of dataset:150 
[Finished in 0.6s]| 


5-51 实验 结 











以 上 就 是 运用 Sklearn 实现 标签 传播 算法 的 全 部 流程 ，Sklearn 算法 库 对 算法 的 封 守信 得 很 
好 , 预 留 很 多 接口 可 以 用 来 调 参 , 如 末 读 者 想 使 用 这 个 库 来 预测 数据 的 应 , 建议 仔细 阅读 Sklearn 
的 家 方 文档 。Sklearn 在 开源 的 科学 计算 库 中 算是 比较 成 洪 的 ， 而 且 文档 也 相对 比较 并 全 。 


本 太 主 要 对 标签 传播 算法 进行 了 介绍 , 希望 让 读者 可 以 了 解 到 关系 图 数据 的 结构 特点 
以 及 半 监 督 机 融 学 习 算 法 的 一 些 特性 。 标 等 传播 算法 是 一 个 比较 容易 理解 和 上 手 的 算法 ， 
解决 了 天 系 网 络 中 的 关联 问题 。 标 签 传播 算法 正在 越 来 越 多 的 领域 得 到 运用 , 希望 大 家 可 
以 通过 这 部 分 的 介绍 对 LPA 有 一 个 初步 的 认识 。 






































5.6.2 Dijkstra 最 短路 径 








前 面 介绍 了 标签 传播 算法 ,标签 传播 的 中 心思 想 古 通过 全 网 中 部 分 打 标 数据 ， 利 用 标 
签 传播 , 挖 据 出 其 他 未 打 标 数据 的 结 朱 。 在 关系 网 状 结构 的 数据 挖掘 中 还 有 一 个 主要 场景 ， 
就 是 最 短路 径 的 欣 据 。 节 短路 径 是 我 们 日 前 生活 中 非 浓 笛 见 的 一 种 算法 应 用 ， 如 采 把 整个 
公路 网 络 数据 作为 输入 , 丈 可 以 利用 最 短路 径 算 法 计算 两 点 间 的 最 短线 路 , 实现 导航 功能 。 
Dijkstra 是 公认 的 比较 局 效 的 一 种 计算 最 短路 径 的 算法 ， 下 面 克 详细 介绍 一 下 如 何 通过 
Dijkstra 自 法 求解 天 系 图 数据 中 的 最 短路 径 问 题 。 



































1. 基础 概要 
迪 杰 斯 特 拉 算 法 (Dijkstra) , 定 以 计算 机 科学 家 狄 克 斯 特 拉 命名 的 。D 评 stra 解决 的 问 


5.6 关系 图 算法 


题 也 比较 容易 理解 ， 如 图 5-52 所 示 。 

















© > e 
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5-52 Dijstra 效果 
图 5-25 中 有 1~6 不同 位 置 的 6 个 顶点 ， 这 些 顶 点 之 间 是 相互 关联 的 ， 这 就 构 成 一 个 
典型 的 天 系 图 网 络 。 每 两 个 顶点 之 间 通 过 直线 关联， 这 个 直线 上 有 一 个 数值 表示 两 点 的 距 


离 。 例 如 计算 从 顶点 “1” 到 顶点 “3” 的 距离 ， 束 可 以 通过 “1” 到 “2” 的 距离 ， 加 上 “2” 
到 “3” 的 距离 及 求解。 这样 看 起 采 似 乎 很 容易 计算 ， 但 是 如 末 要 计算 “1” 到 “6” 这 样 
链 路 比较 长 的 距离 时 ， 可 能 就 不 那么 容易 了 ， 因 为 这 两 个 端点 间 可 能 有 多 条 连接 线路 可 以 
Lore, Dijkstra 算法 惑 是 帮助 我 们 找 出 这 样 两 点 间 最 短 链 路 。Distra 算法 是 一 种 动态 规划 
思想 的 典型 应 用 ， 在 实际 的 求解 过 程 中 只 关心 当前 步骤 的 最 优 解 。Diikstra 求 最 短路 径 算 
法 在 很 多 行业 都 有 应 用 ， 如 上 面 提 到 的 求 汽 车 行驶 的 最 短路 径 ， 在 通信 和 领域 用 来 求 信 号 传 
输 的 了 最短 路径, 在 SNS BOPP RELA Pk BRIKKE. 既然 Dijkstra 有 这 么 多 的 应 用 场景 ， 
下 面 融 来 介绍 Dijkstra 的 具体 推导 过 程 。 









































2. 算法 推导 
Dijkstra 算法 的 输入 是 起 始点 和 终止 点 ， 返 回 的 是 这 两 个 点 之 间 的 最 短路 径 。 这 里 通过 一 
个 具体 的 实例 来 介绍 这 个 算法 ,假设 有 一 组 关系 图 状 数据 构成 关系 图 C 见 图 5-53 )。 
































5-53 关系 图 状 数据 
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图 5-53 中 的 圆圈 表示 顶点 1~5， 顶 点 间 的 连 线 表示 两 点 之 间 的 距离 ， 下 面 通过 具体 
算法 的 推导 求解 项 点 “1” 到 顶点 “5” 的 最 短 距 离 。 

(1) 生成 初始 距离 矩阵 。 因 为 Dijkstra 采用 的 古 动 态 规划 的 思想 设计 ， 每 次 只 求解 当 
前 最 优 路 径 即 可 。 在 初始 状况 下 ， 我 们 只 能 拿 到 每 个 项 点 到 与 它 直 接 相连 的 点 的 距离 ， 每 





个 点 到 其 他 不 相连 的 点 的 距离 先 设 直 成 无 限 大 ， 可 以 生成 如 下 矩阵 。 





0 1 5 e © 

1 0 œ 1 6 

5 œ 0 2 1 

co 1 2 0 œ 

o 6 1 œ 0 
这 个 矩阵 可 以 这 样 理 解 ， 行 和 列 都 是 5 个 字段 ， 分 别 代 表 看 5 个 顶点。 其 中 每 个 数值 
表示 两 个 顶点 之 间 的 距离 ， 如 第 2 行 第 5 列 的 6， 表示 的 是 顶点 “2” 到 顶点 “5” 的 距离 





AE 6。 其 中 ，% 表示 正 无 穷 , 在 这 里 表示 初始 状态 下 两 个 点 没有 连 授 。 这 种 表示 方法 是 和 
阵 论 中 第 用 的 一 种 思维 方式 .。 


(2) 碗 代 确 定 整个 矩阵 权重 值 。 




















01 s[e]e 

1 0 ~ 1 6 

S os .0 OM og 

œ p 2 0 œ 

œo 6 1 œ 0 
EARE, TEA EE RA AE 1 个 顶点 到 第 4 个 顶点 的 距离 ,我 
们 要 通过 迭代 把 这 些 数值 求解 出 来 。 通 过 网 状 数据 的 传播 路 径 可 以 看 出 来 ， 从 顶点 “1 
到 顶点 “4” 没 有 直接 相连 的 一 条 线路 ， 如 果 想 从 顶点 “1” 走 到 顶点 “4” 只 能 通过 1-2-4 








或 者 1-3-4 两 条 路 径 中 选择 一 条 来 走 。 这 时 候 只 要 比较 一 下 这 两 条 路 径 中 哪 条 距离 最 短 就 
可 以 了 ， 通 过 比 对 可 以 得 到 表 5-12。 











表 5-12 不 同 路 径 的 距离 
路 å B 距 
] -2-4 1+1=2 
1-3-4 5+2=7 


E 


5.6 关系 图 算法 





所 以 选择 距离 更 短 的 1-2-4 这 一 条 路 径 ， 这 一 点 计算 完成 后 惩 阵 变 为 


0 I 2 
1 0 l 
9 œ 2 
ce] 0 
c 6 co 


FN O R o 
o 8 = a 8 














Bi BORSA BPI OPER TE OTT R EEEE RT VÀ, T, 这 个 过 程 是 一 个 动态 


ERRAR E. aee TAATA A 到 
B 的 一 种 路 径 的 距离 是 vw， 但 是 当 我 们 遍历 路 径 的 
时 候 发 现 A 到 了 还 有 其 他 的 路 径 ,而 且 这 种 路 径 的 
距离 是 vo, 这 时 候 就 要 比较 vi A ve AAV), 最 终 A 
到 B 的 距离 会 是 MIN(v,, v)。 当 我 们 把 所 有 路 径 都 
迭代 一 遍 之 后 , 就 可 以 通过 这 个 矩阵 束 可 以 推算 出 











取 终 的 项 点 “1” 到 顶点 “5” 的 取 短 路 任 。 
取 终 的 项 点 “1” 到 顶点 “5” 的 最 短路 任用 如 





5-54 所 示 粗 线 表 示 ， 即 最 短路 径 是 1-2-4-3-5。 


3. 工程 实现 








5-54 ”最短 路径 


WIAA S Dijkstra 的 原理 以 及 算法 推导 ， 现 在 来 介绍 一 下 其 体 的 实现 方式 。 我 们 在 








Python2.7、Mac OS 环境 下 进行 实验 ， 下 面 是 具体 代码 。 


class Dijkstra(): 
def init (self,graph, Start, end): 
self.graph = graph 
self.start - start 
self.end = end 
self.werghts = self.init weights () 
selr.Preds = self.init Preds () 


self.S = self.init S() 





selt ashortest path. = [] 


der calculate preds (self): 
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position = self.start 
while self.S[self.end-1] == False: 
try: 


self.calculate weight (position) 
weight, vertex = min( 
[ (weight, vertex) 


for vertex, weight in enumerate(self.weights) 


if self.S[vertex] -- False] 
) 
if self.S[position-1] == False: 
self.S[position-1] = True 
position = vertex-4l 


except: 
print "Erro - Without shortest path, please check the vert 
ex and weights" 


self.S[self.end-1] = True 


def calculate werght(self,position): 
for vertex , weight in self.graph.get(position).iteritems(): 
if (weight + self.weights[position-1] <= self.weights[vertex-1]): 
self.Preds[vertex-1] = position 


self.weights[vertex-1] = weight + self.weights[position-1] 


def calculate shortest path (self): 
end = self.end 
self.shortest path.append (end) 
while end != -1: 
if self.Preds[end-1] != -1: 
self.shortest path.append(self.Preds[end-1]) 
end = self.Preds[end-1] 


selr.shortest path.reverse () 


der get Pred(self, vertex): 


return self.Preds[vertex-1] 


def get weight (self,cost): 


return self.weights[cost-1] 


def init weights (self): 


weights = [] 


for position in range(len(self.graph)): 


weights.append(float("inf")) 
weights[self.start-1] = 0 


return weights 


def init Preds (self): 


Preds = [] 


for position in range(len(self.graph)): 


Preds.append (None) 
Preds[self.start-1] = -1 


return Preds 


def init S(self): 
por 
for position in range(len(self.graph)): 
S.append (False) 


return sS 
def set labels (self): 
labels={} 
for position in self.graph.keys(): 
labels[position]-position 


return labels 


def get edgelist (self): 
start = self.start 
list shortest path = x] 
for vertex in self.shortest path: 
neighbor = (start,vertex) 


list shortest path.append (neighbor) 


start = vertex 


5.6 关系 图 算法 
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return List shortesr path 


def get list weights edge (self): 
list weights edge={} 
for position in self.graph.keys(): 
for vertex, weight in self.graph.get(position).iteritems(): 
if not(list weights edge.getí((vertex,position)))-: 
list weights edgel[l (position,vertex)] = weight 


return list weights edge 


EIE PE d: eA, 然后 通过 动态 的 求解 最 终 计 算出 两 个 顶点 的 最 
短路 径 。 


e calculate weight 和 calculate preds: 遍历 所 有 关系 图 的 网 络 数 据 ， 讨 算 顶 点 到 每 个 
点 之 间 的 最 短 距离 。 





e calculate shortest path: 计算 两 点 间 的 最 短路 径 。 


输入 数据 产 如 下 。 
graph = { 
d 7i ee S 
De T 4e Typ Di 63; 
dm x AR 2y pe LF; 
ds A BE 2y 2i Los 
Ba p sso ie dq 


) 


DURAN MLA, HH 1:{2: 1, 3:5 penes "1" Sp "2" WEA 
Æl, D “1” je "3" WERE 5. RES LEN graph 数据 集 构成 的 数据 如 图 5-55 HT 


我 们 把 graph BUSA, YES "1" ST "5" ARE e NU PB 














dijkstra = Dijkstra(graph,1,95) 
dijkstra.calculate preds () 
dijkstra.cafculate shortest path) 


print "Shortest path : %s" %(dijkstra.shortest path) 


最 终 的 结果 展示 如 图 5-56 所 示 。 











5.7 本章 小 结 














6) Shortest path : [1, 2, 4, 3, 5] 
5-55 数据 图 示 5-56 结果 
经 过 计算 返回 从 顶点 “1” 到 顶点 “5” 的 最 终 最 短路 径 为 1-2-4-3-5， 因 为 这 张 图 的 数 








气量 较 小 ， 可 以 人 工 验证 一 下 结果 的 准确 性 。 以 上 就 是 对 Dijkstra 算法 的 一 个 简单 实现 ， 
介绍 了 如 何 通 过 代码 实现 输入 天 系 图 状 数据 并 且 最 终 得 到 两 点 间 的 最 短路 任 。 


























Dijkstra Suze TEA se Bi A AE, ACT AA I Dijkstra 算法 的 一 些 原 
理 、 公 式 推 导 以 及 代 公 实现 。Di 广 stra ZERA AA eB RIERA, AEX 
一 三 的 介绍 可 以 帮助 读者 对 Dijkstra 算法 以 及 关系 图 算法 的 应 用 有 一 定 的 局 发 作用 ， 力 外 
Dijkstra 算法 中 所 体现 的 动态 规划 思想 也 是 数据 结构 中 非常 重要 的 一 种 思路 ， 加 深 理解 动 
态 规 划 对 掌握 和 使 用 其 他 算法 也 是 大 有 人 神 益 的 。 
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ANTES) BED Lt Ios BASSE. RK, TAAL SCAN, HEA ARTA LER 
算法 进行 了 介绍 , 主要 介绍 了 算法 的 一 些 基 础 理论 、 使 用 的 方式 及 公式 推导 。 在 实际 业务 使 
用 中 , 读者 需要 结合 第 2 草场 景 解析 章 证 中 的 内 容 米 进行 算法 种 类 的 选择 。 需要 补 却 一 点 的 
xe, BSUS WHE FRADE, (EET EM La T KER, Aha UH A VA 
等 多 种 算法 时 ， 读 者 该 如 何 选择 ? ME MCE, WREEF, 尽 可 能 多 地 党 试 算法 , 选 
择 效 末节 好 的 一 种 ,因为 每 种 算法 完 贡 适合 哪 一 种 数据 过 并 不 绝对 。 态 外 , 天 于 复 法 的 调 优 
工作 , 逢 要 主 细 了 解 本 草 中 介绍 的 每 一 个 算法 的 推导 原理 , 掌握 其 中 关键 参数 的 意义 。 关 于 
训 何 通过 机 合 学 习 算 法 解决 真实 的 业务 场景 问题 ， 可 以 参考 第 8 章 的 条 例 实现 部 分 。 
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: 机 器 学 习 算法 一 深度 学 习 











前 面 的 蔓 节 用 了 很 长 的 访 幅 介绍 机 融 学 习 的 一 些 基 础 概念 , 介绍 了 机 带 学 习 的 数据 预 
处 理 、 特 征 工 程 、 算 法 以 及 预测 ， 这 一 和 章 将 重 氮 介绍 闪 度 学 习 。 随 着 人 工 智能 逐 户 升温 ， 
人 脸 识 别 、 语 音 识 别 和 文本 的 深度 分 析 已 经 越 来 越 多 地 应 用 到 我 们 的 日 常生 活 中 。 为 外 ， 
通过 在 工作 中 不 断 地 了 解 一 些 各 户 的 需求 , 我 发 现 澡 户 对 深度 学 习 或 者 是 神经 网 络 相 天 算 
法 的 咨询 比重 正在 增加 。 这 残 意 味 看 随 硝 各 大 IT 公司 营销 活动 的 推广 或 各 种 行业 媒体 的 
宣传 ， 人 工 智 能 领域 的 一 些 名 词 〈《 如 云 计 算 、 深 度 学 习 和 GPU 计算 等 ) 已 经 被 很 多 人 所 
洪 识 。 然 而 绝 大 部 分 的 人 里 然 听 说 过 深度 学 习 算 法 , 但 是 并 个 浓 翁 其 中 的 一 些 原 理 ， 所 以 
需要 有 一 些 坊 幅 来 对 次 上 度 学 习 闻 接触 到 的 知识 进行 介绍 。 以 上 束 是 次 度 学 习 之 所 以 拆 开 作 
为 单独 一 章 来 写 的 原因 。 


















































6.1 TRESS RA 

















REZ] (Deep Learning ) 算法 是 目前 业内 关注 度 非常 高 的 一 类 算法 ， 甚 至 很 多 技术 
分 享 或 者 技术 会 议 ， 一 昕 说 有 深度 学 习 ， 蕊 上 束 会 引起 广泛 的 关注 。 


下 面 束 介绍 一 下 深度 学 习 的 一 些 概念 。 首 匈 ， 随 着 深度 学 习 的 发 展 ， 我 们 的 生 话 中 出 
现 了 哪些 新 的 变化 ?最 近 比 较 火 的 一 些 技术 营 铀 ， 如 AlphaGo 和 阿里 云 的 ET IAA, "E 
MR E E EC Be AS EI RES 2 APR WE BVA T RESI 
RE Li AL SATA I AJISSTRUSUR RE 7] « AC LSIBESR MIS Et Bee Hex 13 — 
PO Uti ZORA el Be, iot A. LES XAR EEE TAL, PREISE SE 
是 从 人 工 神 经 网 络 算法 衍生 而 来 的 。 























6.1.1 深度 学 习 的 发 展 


深 上 度 学 习 算 法 起 产 于 人 类 对 大 脑 神 经 元 的 模仿 。1958 F, EEEREN David 
Hubel 和 Torsten Wiesel 做 了 这 样 一 个 实验 ,他 们 给 猫 的 大 脑 神 经 元 处 接 入 了 电极 ,用 来 测 
量 猫 的 视觉 与 神经 元 之 间 的 关联 。 他 们 在 猫 的 眼前 展示 各 种 各 样 形状 的 物品 ,希望 发 现 是 
人 奋 在 大 脑 中 的 某 一 个 部 位 对 特定 的 一 类 特征 会 有 国定 的 及 应 。 最 后 他 们 发 现 了 一 种 神经 元 
细胞 叫 作 方向 感知 神经 元 ( orientation selective cell ), 这 种 边缘 性 的 反应 是 狐 的 神经 元 细胞 ， 
只 在 物体 的 边缘 天 向 某 个 方向 时 才 会 活跃 。 通 过 这 个 实验 ， 人 们 发 现 了 一 些 生理 学 上 的 规 
律 ， 生 物 在 识别 某 些 个 体 的 时 候 ， 大 脑 内 部 是 做 了 层 层 抽象 的 ， 这些 抽象 就 乔 通过 神经 元 
把 每 种 事物 拆 分 成 颗粒 ， 然 后 通过 对 这 些 颗粒 的 理解 来 做 出 一 些 反 应 。 当 我 们 看 到 一 张 张 
人 脸 的 时 候 ， 其 实在 大 脑 内 部 已 经 把 每 一 张 面孔 抽象 成 一 个 一 个 小 的 颗粒 ( 见 图 6-1 )。 




































































图 6-1 脑 部 抽象 














人 研究 发 现 ， 这 种 抽 绷 工作 不 是 一 器 而 就 的 ， 而 是 通过 神经 元 的 还 层 抽象 来 实现 的 ， 这 束 
构成 了 神经 网 络 的 一 个 基础 洒 构 ,深度 学 习 也 继承 了 这 种 染 构 ， 如 图 6-2 Bn. 








图 6-2 神经 网 络 染 构 





数据 通过 输入 层 流 入 整个 算法 忍 构 。 例 如 ， 如 未 输入 数据 是 一 张 人 脸 图 斤 ， 那 么 在 隐 
KUS 1 和 隐 着 层 2( 隐 站 层 的 数量 可 以 很 多 ， 这 里 只 画 出 两 层 ) 中 人 脸 被 抽 角 成 颗粒 ， 每 
个 隐 忠 层 的 神经 元 会 判断 输入 数据 菏 一 部 分 的 特征 信息 ,最终 输 出 判 师 结果 。 在 这 样 仿 生 
物 脑 神经 的 涤 构 基 础 上 姓 生 了 和信 工 神经 网 络 ， 深 度 学 习 算法 束 古 继承 了 这 样 的 染 构 ,并且 
AX HV Land 9-382 Hinton 做 出 了 算法 层面 的 变 平 ,将 深 肛 学 习 推 向 新 融 度 。2006 F, 
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6.1.2 深度 学 习 算法 与 传统 算法 的 比较 


深度 学 习 归 根 结 底 也 是 机 器 学 习 的 一 种 ， 如 果 说 要 做 机 器 学 习 分 类 的 话 ,除了 分 成 监 
督学 习 、 无 监督 学 习 、 半 监督 学 习 和 增强 学 习 之 外 ， 从 算法 网 络 深度 的 角度 来 看 还 可 以 分 
MIR ES SBIR ES SRE. 























1. REF DRE 

ieee >) (Shallow Learning), MZE X MEKE thee eee Zs, TET 1I EU 
文 持 癌 量 机 (SVM ) MEEA CLR ) 这 样 的 算法 痢 看 作 浅 层 学 习 ， 也 可 以 叫 作 常规 的 机 
前 学 习 算 法 ， 因 为 这 些 学 习 方法 并 没有 涉及 多 层次 的 不 断 抽 和 象 特征 的 过 程 ， 算法 的 架构 相 
比 于 深度 学 习 比 较 简 单 。 以 逻辑 回归 为 例 ， 只 是 把 数据 融入 Sigmoid 公式 ， 然 后 利用 梯度 
下 降 或 者 其 他 方法 ， 并 通过 结果 和 预测 值 之 间 的 差 值 计 算 梯 度 ， 然 后 不 断 减 小 梯度 以 达到 
回归 系数 收 伊 。 现 在 提 到 的 浅 技 学 习 都 是 监督 学 习 ， 那么 监督 学 习 之 所 以 能 生成 模型 并 量 
对 预测 集 进行 预测 ， ERE DEE eae 文 优化 代价 函数 。 浅 层 的 算法 计算 中 , 通过 求解 梯度 ， 
找到 函数 最 优化 搜索 的 方向 。 但 是 这 一 思想 仅 限 于 浅 层 的 机 器 学 习 算法 ， 因 为 在 浅 层 算法 
rH. 层 数 较 少 , 很 容易 通过 计算 PME 区 啊 向 前 传递 。 然 而 在 次 度 学 习 算法 当中 ， 
因为 隐 藏 层 很 多 ， 每 一 层 可 以 理解 成 一 个 函数 式 ,， 在 求解 每 一 层 的 侦 导 系数 的 时 候 需 要 考 
虑 多 层 复合 逊 数 的 变量 偏 导 , 所 以 用 传统 浅 层 算法 的 思想 对 多 层次 的 深度 学 习 网 络 进 行 训 

练 可 能 就 无 法 达到 比较 理想 的 效果 。 


太一 点 浅 层 算法 与 深度 学 习 算法 不 同 的 地 方 在 于 对 特征 的 处 理 方 面 。 第 4 半 中 也 介 
了 特征 对 一 个 算法 正确 性 的 影响 。 浅 层 算 ; in 处 理 一 些 分 类 场景 时 ， —— 
者 是 特征 丛生 这 些 方式 来 人 为 地 构造 特征 ， 这 些 特征 的 好 坏 不 单 考 验 工程 师 的 业务 经 验 ， 

















































































































问 时 也 对 模型 训练 有 至 关 重 要 的 影响 。 购 物 行 为 的 这 种 结构 化 数据 ， 见 表 6-1。 
表 6-1 


用 P WEE 
星 大 大 




















对 于 表 6-1 所 示 的 这 种 结构 化 数据 , HARER A ZO AR , 但 如 采 是 图 像 或 者 语音 文件 ， 
这 样 的 数据 的 特征 可 能 非常 复杂 ， 单 徘 人 工 规 则 构造 特征 是 非常 难以 实现 的 ， 这 部 分 复杂 
特征 的 处 理 也 是 定居 机 融 学 习 和 深度 学 习 的 区 别 之 处 。 


前 面 介绍 了 浅 层 学 习 的 内 容 ， 可 以 看 出 在 算法 的 模型 调 优 是 想 以 及 特征 处 理 两 方面 ， 
浅 层 学 习 和 帝 度 学 习 还 是 有 一 定 差别 的 。 目 前 随 春 统计 学 理论 以 及 计算 能 力 的 发 展 ， 逻 辑 
回电 和文 持 癌 量 机 等 算法 已 经 得 到 了 非 滑 普 般 的 应 用 ,如 在 推 存 系统 或 者 是 一 些 分 类 场景 
下 的 应 用 。 在 处 理 特 征 环境 不 复杂 的 一 些 场景 中 ， 浅 层 学 习 往 往 能 达到 比较 好 的 效 示 ,但 
征 针 对 图 片 、 语 音 、 文 本 这 种 特征 环境 复杂 的 数据 ， 可 能 残 击 要 深度 学 习 算 法 更 多 地 发 挥 
作用 。 




































































2. 深度 学 习 算法 

深度 学 习 ， 从 字面 意思 来 看 ， 突 出 的 是 “这 ” 这 个 特点 。 复 法 的 结构 方面 可 以 看 到 深 
度 学 习 继 承 了 神经 网 络 的 特点 ， 也 是 由 多 层次 组 成 的 。 图 6-3 中 每 个 圆 立 模仿 的 古 大 脑 神 
经 元 ， 在 数学 中 呈现 的 是 计算 市 点 。 
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输出 层 


输入 层 隐藏 层 
图 6-3 深度 学 习 网 络 








PRES AEA ce. Bevis AHH ee 3 部 分 组 成 ， 隐 藏 层 可 以 包含 很 多 层 ， 可 以 定 
7 层 、8 层 ， 甚 至 更 多 。 相 对 比 于 浅 层 和 学习， 次 度 学 习 显然 在 计算 层次 上 更 为 复杂 。 因 为 
REF JRR, 如果 单纯 使 用 浅 层 算法 的 模型 优化 思想 来 优化 每 一 层 的 参数 会 对 
模型 精度 有 非常 不 利 的 有 影响， 所 以 在 模型 训练 方面 ,深度 学 习 采 用 了 为 一 种 思想 一 一 有 反问 
传播 算法 。 

肥 问 传播 算法 义 称 BP 算法 (backpropagation algorithm )， 是 一 种 监督 学 习 算 法 。BP 
算法 的 核心 思想 是 求 导 的 链 式 法 则 。BP 算法 常 被 用 来 求解 神经 网 络 中 的 最 优化 问题 ， 跟 
厂 层 算法 的 最 优化 求解 不 同 的 地 方 是 BP 算法 可 以 用 链 式 法 则 对 每 一 层 和 迭代 计算 梯度 ， 链 
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式 计算 可 以 理解 为 当 通 过 BP 算法 进行 模型 优化 的 时 候 ， 在 求解 悦 度 时 可 以 考虑 树 个 从 后 
到 前 的 全 部 链 路 的 俩 寻 ， 人 然后 对 每 一 层 的 权重 进行 更 新 。 昌 然 BP 算法 是 深度 学 习 中 一 种 
简单 高 效 的 最 优化 算法 ,但 古 如 琳 要 应 用 到 多 层次 的 深度 学 习 当 中 ， 慎 么 目标 下 对 前 而 每 
一 层 的 有 影响 一 定 古 逮 层 爱 减 的 。 如 图 6-4 Pros, SUAREZ AY APSR FA HERR 
成 一 个 数值 ， 那 么 在 算法 模型 中 如 东 有 人 很 多 隐 减 导出 现 ，BP 算法 的 目标 值 对 前 方 隐 城 层 
的 影响 一 定 征 逐 层 长 减 的 ， 这 种 酸 减 会 造成 酝 型 的 极 大 不 惟 确 , 所 以 在 深度 学 习 的 模型 优 
化 过 程 中 往往 需要 通过 很 多 辅助 手段 来 优化 BP EHE, 















































图 6-4 BP 算法 传播 


下 面 简单 介绍 优化 的 思想 ,深度 学 
为 第 一 条 链 路 ， 从 输出 到 输入 是 第 二 条 链 路 ( 见 图 6-5 )。 


习 训 练 模型 的 过 程 是 双向 训练 的 ， 从 输入 到 输出 作 


输出 层 


输入 层 
6-5 深度 学 习 的 两 条 链 路 





先 讲 第 一 条 链 路 ,深度 学 习 目 下 而 上 的 训练 ， 每 一 次 只 针对 一 层 网 络 进 行 训练 ， 训 练 
结 未 作为 下 一 层 的 输入 。 这 个 过 程 有 一 点 像 模型 系统 对 数据 不 断 细 化 的 抽 圾 过程。 例如 ， 
有 一 条 输入 数据 是 猪 的 头像 图 片 ， 那 么 可 能 在 第 一 层 先 抽象 出 猫 的 一 些 像 率 ， 然 后 在 下 面 
的 一 些 隐 着 层 抽象 出 猫 的 一 些 线条 ， 最 后 逐渐 抽象 出 狂 的 轮廓 。 节 终 的 模型 整体 效能 就 是 
潮 识 出 输入 数据 是 否 是 对 狂 的 描述 。 那 么 第 二 条 链 路 ， 也 就 是 目 上 而 下 的 这 条 链 路 ， 主 
要 是 们 助 反 向 传播 的 方式 对 每 一 层 的 参数 进行 调 优 ， 因 为 深度 学 习 稼 贡 有 超过 5 层 的 隐 
闫 层 ， 每 一 层 的 参数 调 优 也 是 对 结 有 末 有 非 贡 大 影响 的 ， 这 两 条 链 路 都 涉及 了 很 多 数学 方 
法 的 优化 。 























RX EXTARE FRA WARE FH TRIE THER I EE s RES 2 
FIRE ABANKA al CRS RIES E, TERRA ISH, Riba 
人 的 手工 加 工 和 提取 生成 的 ， 对 图 形 数 据 这 种 特征 复杂 的 场景 扩展 性 很 差 。 深度 学 习 可 以 
通过 算法 目 动 构 建 特征 ， 将 特征 映射 到 不 同 的 维度 空间 中 ， 下 面 介绍 深度 学 习 逐 层 抽 家 并 
且 构 建 特征 的 目 动 纺 但 算法 。 

















自动 编码 ( AutoEncoder ) 的 核心 思想 束 是 通过 训练 生成 一 个 六 数 F, 使 F(x) 约 等 于 xx， 





也 束 是 得 到 一 个 六 数 使 输入 和 输出 尽 可 能 相等 。 做 这 件 事 有 什么 总 义 呢 ?” 我 们 先 来 观察 下 


6-6, 


输入 输出 





6-6 自动 编码 


如 图 6-6 所 示 ， 每 个 圆 立 代表 一 个 神经 元 ， 如 来 输入 是 5 个 神经 元 的 数据 x， 通 过 3 
个 神经 元 的 转换 输出 的 数据 是 F(x), WR FG) ex, 也 束 意 味 看 可 以 通过 3 维 的 数据 重 构 了 
5 维 的 输入 数据 ， 而 且 重 构 的 数据 与 原始 数据 几乎 相同 。 这 个 流程 中 做 了 信息 的 压缩 ， 也 
束 古 说 可 以 利用 输入 数据 之 间 的 相关 性 ,通过 目 动 的 特征 提取 ,利用 低 维 的 特征 来 还 原 局 
维 数 据 。 如 采 应 用 到 图 侯 模 型 的 识别 中 ， 束 相 当 于 找到 了 一 种 方法 可 以 通过 点 、 边 及 线条 
还 原 出 一 副 图 亿 ， 这 些 点 、 边 及 线条 束 古 通过 目 动 编码 挖 据 出 来 的 特征 。 












































以 上 束 是 深度 学 习 的 模型 训练 以 及 特征 抽取 的 一 些 介绍 , 介绍 得 比较 简单 。 总 体 来 说 ， 
深度 学 习 在 特征 非常 复杂 的 场景 下 会 有 比较 好 的 表现 ， 如 图 像 识 别 、 语 音 识 别 和 文本 分 析 
这 样 的 场景 。 





3. 区 别 总 结 
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e 日 标 场景 。 目 前 浅 层 学 习 还 是 机 侣 学 习 的 主流 应 用 ,主要 用 于 解决 一 些 日 志 类 的 数 
据 分 析 , 特别 是 结构 化 数值 类 数据 的 一 些 预测 场景 。 深 度 学 习 主 要 解决 复杂 特征 场 
景 ， 如 图 像 识别 、 文 本 分 析 和 语音 识别 这 样 的 场景 。 随 看 次 度 学 习 的 开源 框 以 的 
发 展 以 及 计算 资源 的 发 展 ， 越 来 越 多 的 业务 场景 正在 符 试 通过 次 上 度 学 习 米 解决 问 
题 。 这 也 束 是 国际 上 一 些 互联 网 巨头 分 别 成立 研 究 机 构 对 座 度 学 习 进 行 大 力 投入 
的 原因 。 


e 特征 抽象 。 在 特征 的 处 理 方 面 , 闭 层 学 习 主 要 是 通过 人 工 于 动 构建 特征 ,需要 其 备 
大 量 的 业务 育 景 知 识 ， 而 且 依赖 于 手工 的 特征 抽取 方式 的 扩展 性 不 会 特别 好 。 深 
上 度 学 习 采 用 了 目 动 编 但 的 方式 ， 逐 层 抽 绷 特征 ， 对 复 洒 的 特征 抽取 场景 有 比较 好 
HAC o 

e RAIZ. TERA UIT TU, USE SAARI BD, iil RJZUSEHE PER 
JA VER] VIVE thy RET AAC. FREAD, 往往 要 通过 从 前 到 后 
和 从 后 到 前 两 条 链 路 来 对 模型 进行 训练 和 优化 , 而 且 在 模型 训练 的 过 程 中 要 考虑 不 
YK ZARA POCA 
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6.2 RESIN BAM 








了 解 深度 学 习 的 读者 一 定 经 常 听 到 几 个 深度 学 习 的 常用 结构 : DNN, CNN 和 RNN。 
深度 学 习 的 结构 种 类 非常 多 ， 这 3 种 是 出 现 频率 比较 高 的 。 其 实 这 3 种 结构 的 模型 并 不 是 
并 列 关系 ，DNN 是 表示 有 深度 学 习 网 络 的 算法 的 统称 ，CNN 主要 是 一 种 空间 概念 上 的 深 
度 学 习 结构 , RNN 是 时 间 概念 上 的 深度 学 习 结构 。 下 面 就 来 分 别 介绍 一 下 这 3 种 深度 学 习 
模型 。 














6.2.1 深度 神经 网 络 


RIS AHZE py] (Deep Neural Network, DNN )， 从 字面 意思 来 理解 的 话 ， 特 指 层 次 比 
较 次 的 神经 网 络 ， 其 结构 如 图 6-7 所 示 。 











输入 层 隐藏 导 
6-7 DNN 结构 


DNN 是 由 深度 学 习 领 域 的 大 师 Geoff Hinton 创造 的 并 且 被 应 用 到 各 种 场景 之 中 ,DNN 


沁 指 多 层次 的 神经 网 络 ， 这 些 模型 的 隐 关 层 之 间 彼 此 相连 。 只 是 针对 处 理 数据 的 种 类 和 特 
点 不 同 ， 衍 生出 各 种 不 同 的 结构 ， 如 后 面 介 绍 的 CNN 和 RNN. 








6.2.2 卷 积 神经 网 络 


卷 积 神 经 网 络 ( Convolutional Neural Network, CNN ), 是 一 种 比较 特殊 的 深度 学 习 结 
构 ,， 主 要 是 通过 卷 积 来 解决 宝 间 上 一 些 复杂 特征 的 问题 。 什 么 是 至 间 问 题 呢 ? 比较 典型 的 
束 是 图 厂 识 别 问 题 。 我 们 平时 接触 到 很 多 车 脾 识 别 和 人 上 脸 识别 背后 的 模型 训练 都 是 依赖 于 
CNN 的 。 之 所 以 卷 积 神经 网 络 神 对 图 请 这 种 类 型 的 数据 有 比较 好 的 训练 效 末 ， 是 因为 图 
卢 的 特征 非 消 复杂 。 因 为 算法 只 能 处 理 规范 标准 的 数据 ， 所 以 对 图 上 数据 需要 进行 一 次 二 
进 制 的 转换 才 可 以 进入 算法 模型 进行 训练 。 具 体 转 化 效果 如 图 6-8 Par (RAIS A 
Beginners Guide To Understanding Convolutional Neural Networks )， 这 个 案例 中 将 一 张 小 狗 
Fr POE aU to 
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我 们 看 到 的 计算 机 看 到 的 
图 6-8 图 片 转换 


在 非 第 构 化 数据 的 数 制 转换 过 程 中 , 图片 数 据 会 按照 便 系 和 大 小 被 转换 成 矩阵 状 的 二 
进 制 数据 。 例 如 ,图片 被 转化 成 32x 32 x 3 的 数组 ，32 x 32 表示 的 是 图 片 像素 ， 可 以 看 作 
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图 户 的 长 乘 以 局 ， 乘 以 3 表示 RGB (ARAE ) 值 。 基 于 这 样 的 数据 形态 ， 如 下 针对 每 一 
个 像素 点 都 进行 特征 训练 ， 那 么 每 一 个 隐藏 层 需要 被 训练 的 参数 会 非 冲 庞 大 。 而 如 朱 每 个 
隐 闫 层 的 参数 都 过 于 复杂 很 容易 造成 局 部 过 拟 合 的 问题 〈 人 参考 第 1 草 的 介绍 ) 为 了 解 次 
这 种 大 量 特征 参数 训练 的 问题 ，CNN 利用 卷 积 核 作 为 权重 的 向 下 传导 中 介 ， 大 大 地 降低 
了 每 一 层 的 计算 复杂 上 度 。 


























下 面 通过 一 张 LCNNLeNet-5 对 CNN 模型 的 描述 图 ( 见 图 6-9 ) 来 介绍 一 下 CNN Bs 
型 涤 构 ，LeNet-5 是 一 个 CNN 模型 的 开 产 组 织 ， 地 址 为 http://yann.lecun.com/exdb/lenet/。 
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Lees 


特征 图 谱 


输入 
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6-9 CNN 架构 








6-9 中 表示 通过 CNN 实现 手写 字 识 别 的 架构 ， 可 以 看 到 其 中 CNN 架构 包含 卷 积 
( Convolutions )、 下 采样 ( Subsampling ) 和 全 连接 ( Full Connection ) 几 个 关键 元 素 ， 下 面 
分 别 介 绍 一 下 这 几 部 分 内 容 。 


(1) 卷 积 ( Convolutions )。 首 先 介绍 卷 积 核 的 原 
PH, 如 图 6-10 所 示 , 通过 虚线 标记 出 来 的 这 个 小 方块 
就 是 一 个 卷 积 核 。 


卷 积 核 可 以 理解 成 一 个 比 图 像 尺 寸 更 小 的 小 方 
块 ， 如 图 6-10 所 示 ， 这 个 内 容 为 “A” 的 大 图 三 的 尺 
寸 是 5x5x3, 那么 卷 积 核 可 以 是 3 x 3 x3 的 小 方块 ， 6-10” 卷 积 核 示 例 
然后 通过 卷 积 核对 输入 数据 矩阵 进行 扫描 。 


下 面 通 过 一 个 例子 介绍 卷 积 核 是 如 何 扫 摘 图 片 的 , 假设 输入 图 片 不 考虑 RGB, 是 一 个 
5 x5 的 和 失 阵 数据 ， 如 下 所 示 。 























3 5 2 6 8 
245 9 6 


5 7 8 4 1 
3 6 2 7 3 
3 7 5 6 8 








然后 我 们 来 看 下 这 组 数据 经 过 卷 积 核 的 处 理会 发 生 什么 变化 ， 假 设 卷 积 核 是 3x3 的 
一 个 方块 ， 卷 积 核 乍 阵 如 下 。 


=3 2 l 
2 =5 3 
4 5 =? 











实际 上 在 执行 卷 积 计算 的 时 候 ， 卷 积 核 需要 对 输入 数据 进行 一 过 扫描 ， 这 里 选取 扫 摘 
过 程 的 一 部 分 介绍 卷 积 计算 的 原理 ( 见 图 6-11 )。 


3 2 6] 8 3 2 
2 5 9|-é ? 
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3 7 

3 6 


2 
5 
6-11 扫描 原理 





当 扫 揪 a 到 输入 矩阵 内 使 用 黑 框 立 出 来 的 部 分 矩阵 有 时， 进行 了 如 下 填 丰 。 


—3 X 5+2 X 2+1 X 6+2 X 4-5 X 5+3 X 9+4 X 7+5 X 8-2 x 4=65 








TUAHIA-T- HE 7387 Jc, 输入 从 5 x 5 AEREN T 3x3 AIRE, AE T 282901) Hs 
ai OCA, BAAR VA rik RERNE, 通过 郑 积 核 也 
能 学 习 出 对 输入 数据 的 特征 摘 述 ， 整 个 CNN 学 习 的 过 程 就 是 在 确定 卷 积 核 的 具体 数值 。 








(2) 下 采样 (Subsampling )。 当 我 们 观察 LeNet-5 的 CNN 架构 ( 见 图 6-9) 时 可 以 发 
H, 除了 上 面 提 到 的 卷 积 核 处 理 卷 积 层 ， 还 有 罕 插 的 下 采样 层 。 下 采样 层 的 作用 融 是 对 氏 
像 进 行 目 抽样 ， 减 少数 据 的 处 理 量 ， 使 有 效 的 信息 得 到 尽 可 能 的 保留 。 下 采样 层 在 次 上 度 学 
习 中 也 被 表示 为 池 化 层 (Pooling Layer )。 池 化 方法 有 很 多 ， 这 里 介绍 一 种 比较 简单 的 方法 
一 一 最 大 池 化 (Maxpooling )， 最 大 池 化 的 原理 是 在 每 个 小 区 



































域 中 选择 最 大 值 作为 输出 值 。 al 8 7 


通过 一 个 例子 介绍 下 最 大 池 化 ， 如 图 6-12 Ara, 输入 数 ” 2 67.5 
据 为 4x4 的 结构 ， 可 以 拆 分 成 4 个 2x2 的 小 方块 ， 最 大 池 6-12 Maxpooling 案例 
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化 取 每 一 部 分 中 最 大 的 数值 作为 输出 ,这 样 的 好 处 是 保留 了 数据 中 的 最 主要 特征 而 且 能 减 


小 计算 复杂 度 。 





(3) 全 连接 (Full Connection )。 通 过 CNN 2644 (DLRI 6-9) 我 们 了 解 到 ， 经 历 了 两 次 
卷 积 和 采样 处 理 ， 生 成 了 许多 的 特征 图 谱 ( Feature Map )， 这 些 特征 图 谱 ( Feature Map ) 
可 以 看 作对 于 输入 图 乒 的 位 置信 息 以 及 表现 的 描述 ,不同 的 特征 图 谱 〈 Feature Map ) 会 表 
未 不 同 的 内 容 ， 如 某 一 个 点 的 位 置 、 字 母 中 某 一 个 模块 的 大 同等 。 但 是 我 们 需要 解决 的 场 
景 是 识别 输入 图 片 中 的 字母 “A”， 光 有 这 些 特 征 几 谱 〈( Feature Map ) 是 不 够 的 ， 因 为 特征 
图 谱 (Feature Map ) 描述 的 是 输入 图 片 的 各 种 细 市 信息 ， 需 要 把 这 些 信息 进行 社 总 并 且 综 
合 判 新 ， 返 回 我 们 需要 的 结 采 。 全 连接 以 及 高 斯 连接 会 做 一 个 分 类 结 采 的 判断 ， 判 断 输 入 
结果 是 否 为 “A”。 

到 这 里 就 完成 了 对 CNN 的 简单 介绍 , 如 采 想 更 评 细 地 了 解 CNN 架构 还 需要 大 量 查 阅 
资料 ， 目 前 CNN 在 图 片 识别 领域 的 应 用 非常 三 尝 ， 主 要 是 针对 空间 数据 的 处 理 ， 下 而 介 
绍 一 下 对 时 间 序 列 数 据 进行 处 理 的 深度 学 习 淋 构 RNN。 



































6.2.3 循环 神经 网 络 


循环 神经 网 络 ( Recurrent Neural Network, RNN ) 是 一 种 环 状 的 深度 神经 网 络 ， 常 用 
来 解决 时 厅 行 为 的 问题 。 什 么 是 环 状 网 络 ?” 下 面 通过 和 CNN 比 对 来 介绍 这 种 形态 的 网 络 
的 特点 。 从 参数 传导 的 角度 来 看 ，CNN 染 构 的 每 层 参数 古 直 接 向 下 传导 有 的， 不 会 回流 而 
日 同 层 参数 间 没 有 传导 。 而 RNN 在 隐 妃 层 的 输出 可 以 作为 日 喘 的 输入 ， 参 数 可 以 环 状 传 
F, RNN 的 结构 如 图 6-13 ATA. 




















输出 层 


隐藏 层 


输入 层 





6-13 RNN 架构 


OAH SOR GE, CNN 主要 处 理 的 是 图 片 数据 ， 图 户 数 据 其 实 是 一 种 空间 上 的 相互 
联系 ， 如 猫 的 图 像 中 鼻子 边 上 可 能 是 嘴 ，CNN 解决 的 是 空间 的 问题 。 但 是 对 文本 分 析 和 




















6.3 ”本 章 小 结 














语音 识别 来 讲 ， 下 一 个 时 间 产 生 的 文本 会 受到 前 一 时 刻 文 本 的 影响 ， 也 惑 是 说 在 时 间 维 度 
上 是 彼此 关联 的 ， 所 以 RNN 的 环 状 特 点 就 会 更 好 地 解决 这 种 时 序 空 间 的 联系 。 而 且 CNN 
解决 的 问题 往往 是 输入 数据 长 短 格式 固定 的 场景 ， 如 训练 了 一 个 32 RA x 32 像素 的 人 脸 
识别 模型 ， 那 么 束 只 能 对 这 个 尺寸 的 数据 进行 预测 。 然 而 在 很 多 场景 中 ， 如 机 融 翻 译 ， 
次 需要 翻译 的 句子 长 短 是 不 定 的 ， 这 对 CNN 这 种 在 输入 格式 中 有 固定 要 求 的 模型 就 不 适 
AT, RNN 融 没 有 这 方面 的 限制 。 


简单 说 一 下 RNN 训练 的 原理 ， 如 图 6-14 所 示 。 


Yo Y: 


















































Xo X x: 


6-14 RNN 隐藏 层 结构 





这 张 图 表示 RNN 的 隐藏 层 结 构 ，X 作为 输入 ,了 为 输出 ， 旦 表示 每 个 隐藏 层 的 参数 。 
下面 以 图 6-14 为 例 介绍 RNN， 例 如 需要 预测 文章 接 下 来 的 3 个 字 是 什么 ， 那 么 这 3 个 字 
对 应 到 RNN 中 为 3 个 隐 闫 层 。 我 们 看 到 每 一 层 在 做 计算 的 时 候 都 会 考虑 到 前 一 层 的 隐 叫 
层 参 数 以 及 当前 时 间 序 列 的 输入 ， 如 钙 在 训练 的 时 候 考 虑 了 Ho VA. Xi, 对 应 到 文章 预测 
场景 ,就 是 每 预测 一 个 字 都 会 考虑 到 上 上 下文 的 联系 。 相 比 于 CNN 的 隐 羧 层 间 参数 不 传导 ， 
RNN 的 这 种 架构 更 适合 对 时 间 序 列 的 数据 进行 预测 。 
目前 RNN 已 经 广泛 应 用 于 自然 语言 理解 和 股票 预测 等 时 间 相 关 的 场景 下 ， 也 有 很 多 
RNN 的 衍生 版 本 产生 ， 比 较 成 功 的 模型 如 LSTM， 所 以 如 果 想 真正 了 解 RNN 的 原理 ， 还 
需要 对 其 他 模型 研究 进行 相关 探索 。 
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爸 进 行 了 介绍 。 次 度 学 习 是 目前 非 党 热门 的 机 融 学 习 研 究 方向 ， 这 是 因为 目前 社会 上 积 
索 了 很 多 的 非 结 构 化 数据 ， 对 这 类 数据 的 应 用 场景 非 党 迫切。 简单 的 一 个 人 脸 识 别 技 术 
已 经 可 以 帮助 我 们 开关 手机 ， 丰 语 拍 用 功 能 。 随 大 深 度 学 习 技 术 的 发 展 ， 更 多 的 语音 、 
文本 和 图 像 场景 将 随 看 各 目 叭 硝 性 的 提升 而 普 志 应 用 到 日 前 生活 中 。 学 习 深 度 学 习 需要 
Fr BCE FATE SCA SCARY Pa BET, Te Sea SAA, PR EEA E 
PRAY SIE 
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第 d sx 
常见 机 器 学 习 工具 介绍 : 











通过 前 面 的 章节 的 学 习 , 我 们 已 经 了 解 了 与 机 页 学 习 相 天 的 算法 理论 , 但 在 业务 实践 中 
交 有 理论 是 不 够 的 ,还 需要 有 合适 的 工具 。 由 于 机 带 学 习 算法 不 同 于 传统 的 数据 处 理 , 涉及 
很 多 复杂 的 计算 逻辑 并 且 解 决 的 数据 量 级 通 前 比较 大 , 所 以 如 何 选用 合适 的 机 带 学 习 工 具 也 
尽 业 务 解决 万 条 中 非常 关键 的 一 个 步 儿 ,下 耐 来 看 重 介 绍 一 下 业界 中 比较 热门 的 儿歌 工具 。 




















7.1 概述 














随 硝 人 工 智 能 的 火热 , 很 多 企业 甚至 是 数据 挖 据 爱 好 者 开始 答 试 目 己 动 于 来 挖 据 数 据 
中 的 价值 。 机 天 学 习 的 基础 设施 包括 数据 、 自 法 和 工具 。 前 面 的 章节 已 经 介绍 了 数据 和 算 
法 方面 的 内 容 ， 本 章 将 重点 介绍 机 融 学 习 工 具 。 机 天 学 习 工 具 从 计算 能 力 上 米 齐 可 以 分 为 
PAPE, BUSA SET ANTES oT ID AN Li Las I Fi pce 
工具 以 及 企业 级 云 机 融 学 习 工 具 进行 介绍 ， 如 图 7-1 Aran. 


























SPSS 






R Studio 


SPARK +Mlib 


开源 分 布 式 工 具 fO TensorFlow 
亚马逊 AWS 
企业 级 分 布 式 机 器 学 习 服务 [O 


阿里 云 机 器 学 习 PAI 
7-1 机 器 学 习 工 具 















首 匈 介绍 单机 版 的 机 囊 学 习 工 具 。 如 条 读者 有 过 数据 挖掘 的 经 历 ， 一 定 会 对 下 面 几 和 天 
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工具 都 有 一 定 了 解 : SPSS 和 R。 这 些 都 是 单机 版 机 带 学 习 工 具 的 代表 ， 每 一 亚 产 品 都 有 目 
己 的 特点 , SPSS 的 操作 更 方便 , R 的 画图 功能 比较 简洁 。 日 机 版 工具 的 特点 就 古 安装 廊 便 ， 
比较 好 上 了 手 ， 因 为 单机 版 工具 不 依赖 于 撒 层 计算 集群 的 配置 。 但 是 单机 版 工具 在 计算 能 

上 不 能 与 分 布 式 机 带 学 习 工 具 相 提 并 论 ， 往 往 只 能 进行 一 些 数 据 的 实验 或 者 画图 展示 ,在 


企业 级 数据 处 理 和 业务 服务 上 相对 比较 乏力 。 





























介绍 完 单机 版 机 顺 学 习 工 具 之 后 ， 接 下 来 讲 一 下 分 布 式 机 融 学 习 工 具 。 笔 者 认为 , K 
正 的 智能 计算 平台 一 定 是 其 备 处 理 大 规模 数据 、 棕 供 丰 宇 算 法 能 力 的 计算 平台 。 通 前 来 讲 ， 
一 侠 完 整 的 机 融 学 习 工 具 的 以 构 包 括 4 层 ， 如 图 7-2 所 未 。 











业务 层 : 广告 投放 和 疾病 预测 等 


计算 引擎 :计算 集群 





7-2 ”智能 机 器 学 习 工 具 的 染 构 








从 上 向 下 看 ,例如 有 一 些 业 务 上 的 需求 ， 如 搭建 广告 DSP 系统 、 搭 建 商 品 推 荐 引擎 。 

这 些 业 务 场景 的 需求 建立 在 底层 的 机 融 学 习 算法 上 ， 如 同 第 2 章 讲 到 的 业务 场景 抽象 的 内 
容 。 底 层 的 这 些 机 器 学 习 算法 ， 如 K-means、LR 和 RF 等 ， 需 要 映射 到 分 布 式 计算 架构 上 ， 
通过 MPI 和 MapReduce 等 分布 式 的 代码 架构 来 实现 这 些 算法 。 最 后 分 布 式 的 代码 染 构 把 任 
务 部 普 到 底层 的 计算 引擎 上 。 目前 随 着 云 计算 和 智能 算法 的 发 展 , 智能 机 妖 学 习 算法 的 淋 构 
搭建 也 有 了 多 种 选择 ， 有 集群 +Spark+Mlib 的 开源 组 合 ， 也 可 以 使 用 一 些 云 计算 服务 商 的 企 
业 级 机 怖 学 习 平台 服务 ， 比 较 成 熟 的 包括 亚马逊 的 AWS Machine Learning、 微 软 Azure 的 
Machine Learning Studio 以 及 阿里 云 机 器 学 习 PAI。 使 用 开源 架构 搭建 算法 平台 可 能 会 提升 
自身 对 数据 流转 和 算法 订 制 方面 的 灵活 性 , 但 是 在 集群 运 维 以 及 算法 开发 方面 的 开销 也 会 比 
较 大 。 使 用 企业 级 的 机 器 学 习 平 台 服务 , 虽然 在 算法 目 定 义 上 会 有 一 定 的 限制 , 但 是 可 以 市 
省 对 环境 依赖 方面 的 投入 ， 把 更 多 的 精力 投入 算法 和 业务 相 结 合 的 层面 。 
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以 上 是 对 机 融 学 习 工 具 的 概述 ， 接 下 来 将 分 别 对 早 机 厂 机 积 学 习 工 具 、 开 源 分 布 式 机 
带 学 习 工 具 和 企业 级 云 机 带 学 习 工 具 进 行 介绍 ,主要 从 相关 依赖 、 操 作 的 易 用 性 及 算法 丰 
富 程 度 等 方面 展开 〈 注 : 本 半 的 实验 环境 为 Mac OS 系统 )。 











7.2. 单机 版 机 器 学 习 工 具 











对 普通 用 户 来 讲 ， 特 别 是 一 些 算 法 能 力 还 不 扎实 的 数据 挖掘 初学 者 来 霸 ， 使 用 单机 版 
的 机 需 学 习 工 具 可 以 更 快速 地 上 手 。 本 贡 将 重点 介绍 两 称 工 具 ， 分 别 是 SPSS 和 RStudio。 








7.2.1 SPSS 





(1) fay. Betty SRSA (Statistical Product and Service Solutions, SPSS ) 
软件 是 世界 上 最 早 的 统计 分 析 软 件 ， 由 美国 斯 坦 福 大 学 的 3 位 研究 生 Norman H. Nie, C. 
Hadlai (Tex) Hull 和 Dale H. Bent F 1968 年 研究 开发 成 功 ， 同 时 成 立 了 SPSS 公司 ， 并 于 
1975 年 成 立法 人 组 织 ， 在 芝加哥 组 建 了 SPSS 总 部 。2009 年 7 月 28 H, IBM 公司 宣布 用 
12 亿美 元 现金 收购 统计 分 析 软 件 提供 商 SPSS 公司 。 如 今 SPSS 已 出 至 版 本 22.0， 而 且 更 名 
为 IBM SPSS, ZS, SPSS 公司 已 有 40 余年 的 成 长 历史 。 


SPSS 软件 的 主要 特点 是 操作 界面 极为 友好 。 它 将 几乎 所 有 的 功能 都 以 统一 、 规 范 的 界 
面 展示 出 来 , 使 用 Windows 的 窗口 方式 展示 各 种 管理 和 分 析 数 据 方法 的 功能 , 对 话 框 展示 
出 各 种 功能 选择 项 。 用 户 只 要 掌握 一 定 的 Windows 操作 技能 , 萄 悉 统计 分 析 原 理 , 就 可 以 
使 用 该 软件 进行 科研 工作 。 












































(2) ZUR. SPSS 是 付 纺 软件 ， 具 体 安 装 方法 简便 。 登 录 官网 http://www.spss.com.hk/ 
software/?source=homepage&hpzone=nav_bar, f#k% SPSS LH, 并 且 购 买 许 可 证 , 直接 安装 
注册 即 可 。 这 里 演示 使 用 的 是 SPSS 21.0 版 本 ， 进 入 产品 界面 ， 如 图 7-3 所 示 。 


(3) 运行 实验 。 打 开 SPSS 软件 ， 提 示 导 入 数据 产 。SPSS 支持 多 种 数据 源 输 入 ， 如 
7-4 所 示 。 
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164 | #73 
常见 机 器 学 习 工 具 介绍 


IBM SPSS Statistics 21 - 


IBM SPSS Statistics IBM. 


| 您 希望 做 什么 ? 


O 打开 现 有 的 数据 源 (0) 


更 多 文件 … 

JUsers/garvin/Documents /work /PAI/pai case /c 
/Users/garvin/Documents/work/book/data/sps 输入 数据 (T) 
JUsers/garvin/Documents /work /book /data /win 


打开 其 他 文件 类 型 (A) 运行 现 有 查询 (R) 


更 多 文件 


运行 教程 (U) 


使 用 数据 库 向 导 创建 新 查 
HQ 


以 后 不 再 显示 此 对 话 框 (D) 


e o 
查找 范围 : [data 














文件 名 : 


文件 类 型 : | spss statistics (*.sav) 
Excel (*.xls, *.xlsx, *.xlsm) 

编码 : Lotus (*.w*) 
Sylk (*.slk) 

BE: 5. dBase (*.dbf) 

SAS (*.sas7bdat, *.sd7, *.sd2, *.ssdO1, *.ssd04, *.xpt) 
Stata (*.dta) 
文本 格式 (*Dtxt, *.dat, *.csv) 
所 有 文件 (*.*) 











7-4 SPSS 数据 源 





这 里 导入 的 是 UCI 开源 数据 集 的 一 组 数据 ,是 一 个 二 分 类 的 场景 。 利用 这 组 数据 做 一 
个 逻辑 回归 二 分 类 的 模型 计算 。 把 数据 导入 SPSS 中 ， 其 中 dioxide A 字段 是 目标 列 (目标 
列 分 为 0 和 1 两 种 值 )， 其 他 字段 是 特征 列 ， 如 图 7-5 Wr. 


TTP BRAY “Apa” SREB, CORN 7-6 所 示 ， 选 择 “ 二 元 logistic 回归 ”。 这 里 面 的 
“ 因 变 量 ” 表 示 目 标 列 ,，“ 协 变量 ”表示 特征 字段 ， 单 击 “ 人 确定 ”按钮 开始 模型 训练 。 
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PETER 





7-5 数据 导入 


因 变 量 (D): 
4 fixed v e dioxide A 分 类 (G)... 
A nea 块 1 的 1 RFS)... 
volatile 
# acidity 上 一 张 (V) 下 一 张 (N) 选项 (0).… 
$ d 协 变量 (C): Bootstrap(T)... 
48 residual sell " 
4? sugar aci " Li 
4 chlorides moras 
yis elu citric 
4 sulfur A 
$5 total My 输入 
sulfur 方法 (M): 
& dioxide 选择 变量 (B): 
& density * 
@ pH 


帮助 重 置 (R) 粘贴 (P) 





7-6 逻辑 回归 设置 


终 的 输出 结 来 可 以 通过 输出 查看 合 米 显示， 模型 的 评估 模块 如 图 7-7 PAN 


方程 中 的 变量 








fixed 200 
acidity A F .897 
volatile . 1.036 
acidity f .103 
citric a 2.486 
acid ; .017 
residual : .006 
sugar . 166.950 
chlorides : 1.405 
free i .545 
sulfur A " .188 
常量 i 163.188 


7-7 模型 评估 


效 辑 回归 的 模型 评估 模块 针对 每 一 个 特征 都 有 多 维度 的 表示 。 在 这 些 统计 指标 中 ， 下 


1 
1 
1 
1 
1 
1 
1 
1 
1 
1 
1 
1 











IB] 4 个 指标 比较 关键 。 
e "B': 偏 回归 系数 ， 也 融 是 生成 购 线 性 模型 的 系数 。 
e “SE”: 标准 误差 。 


e “Wals”: Wald 统计 量 。 





e “EXP(B)”: 变量 的 有 时 比 。 
最 终 这 次 实验 生成 的 逻辑 回归 模型 可 以 表示 为 





logistic=0.399*fixed-3.895*acidity A-2.884*volatile-0.006*žacidity-2.473*citric+0. 


039*acid-0.026*residual-15.696*sugar+0.847*chlorides+1.925*free+0.879*sulfur A+3.056 








从 SPSS 的 忌 体 设计 和 角 有 大 来 看 ，SPSS Wa ZR TTP. BIE Excel 表格 的 
方式 进行 操作 ,大 大 降低 了 数据 操作 者 的 使 用 门槛 ,但 是 如 果 想 针对 数据 进行 自 定 义 的 开发 ， 
FEKETE R L ! 都 显得 比较 困难 。 要 想 进 行 大 规模 的 数据 挖 据 工 作 , 从 算 
法 目 由 度 或 是 效率 上 来 看 ，SPSS 还 是 有 一 定局 限 性 的 。 下 面 是 一 些 关 键 指标 的 详细 描述 。 


在 数据 源 文 持 方面 ，SPSS 支持 本 地 多 格式 文件 的 导入 和 数据 库 、 服 务 兹 数据 连接 C 见 
PT 












































% 7-1 SPSS 支持 数据 源 


本 地 数据 格式 XX dm Æ BR 务 
* sav; *.zsav; *.syd; *.sys; *.por; *.xls; *.xlsx; *.xlsm; A BR 
* slk; *.dbf; *.xpt; *sd7; *.dta; *.txt; *.dat; *.csv ME Cognos 服务 人 


在 算法 方面 ,SPSS 提供 了 委 用 的 分 类 、 育 类 和 回归 算法 , BELAREA HE 
义 ， 只 文 持 算法 的 主要 参数 的 调试 ( 见 表 7-2 )。 


表 7-2 SPSS 支持 算法 


INU 
ada 




















类 è Jl a oo 
TET ASA JB. DZ. RIEA T EUM. PEAS T Rar PBT EE AS 工 检验 等 
线性 模型 一 般 线 性 模型 和 广义 线性 模型 
回归 线性 回归 、 二 元 逻辑 回归 和 多 项 逻辑 回归 等 
聚 类 K-means 和 系统 聚 类 等 
神经 网 络 Z Ez I RI ERU e n] Ae PR CASS 





评估 和 预测 模型 预测 和 ROC 曲线 等 


7.2 单机 版 机 器 学 习 工具 


7.22 Iu 


(1) TST. NUR CE re ATA LEI, ESNet R 语言 ， 现 在 很 多 对 效 
据 挖 掘 工 程 师 的 基本 要 求 都 包含 这 一 条 : PVE RIBS. RIBS ARATE? 我们 通过 
本 市 简单 地 了 解 一 下 。 先 来 介绍 背景 ，R 是 一 至 集 统计 计算 和 绘图 功能 于 一 体 的 软件 。 有 R 
语言 的 前 身 是 $ 语言 ，$ 语言 是 由 著名 的 AT&T 贝尔 实验 室 开 发 的 用 来 数据 分 析 和 绘图 的 
语言 。 后 来 经 过 新 西 兰 奥克兰 大 学 的 Robert Gentleman 等 人 在 S 语言 的 基础 上 继续 开发 ， 
诞生 了 R 语言 的 雏形 。 


R 语言 主要 具备 下 看 一 些 优点 。 


e 开源 。R 语言 是 一 亚 完 全 开放 源码 的 工具 。 因 为 开源 ， 数 据 开 发 工作 者 可 以 目 由 地 
阅读 R 语言 的 源码 ， 而 且 可 以 基于 R 语言 的 代码 进行 扩展 ， 这 也 是 R 语言 能 在 短 
时 间 内 得 到 快速 友 展 的 原因 。 每 天 都 有 来 目 全 世界 的 开源 爱好 者 为 R 语言 页 献 代 但 
包 ， 使 用 者 可 以 通过 install 命令 轻松 地 安 守 这些 扩 展 算法 。R 语言 个 同 于 SPSS 等 
软件 ， 它 可 以 目 如 地 修改 已 有 的 算法 ， 使 算法 跟 目 己 的 业务 场景 更 加 贴 合 。 


e 路 平台 。R 语言 的 跨 平 台 特 性 大 大 加 快 了 这 项 技术 的 传播 ， 目 前 无 论 是 在 Mac OS, 
Windows 或 者 Linux 系统 上 都 有 较为 稳定 的 版 本 可 供 使 用 。 用 户 只 需要 一 套 代 但 ， 
就 可 以 把 业务 逻辑 运行 在 不 同 的 平台 上 。 


较为 完善 的 资料 。 因 为 目前 R 语言 的 开源 贡献 者 众多 ， 而 且 R 语言 无 论 在 学 术 界 
或 是 工业 界 都 有 很 多 的 应 用 , 已 经 有 大 量 的 使 用 者 贡献 了 许多 可 以 参考 的 学 习 资料 
或 者 实例 代码 。 关 于 R 语言 的 一 些 应 用 ， 已 经 有 相关 图 书 资源 可 供 参 


e HIE, R 语言 在 数据 可 视 化 方面 也 独 具 
特色 ,提供 了 很 多 种 画图 包 以 及 丰富 的 绘 
功能 ， 使 生成 的 数据 可 以 清晰 地 可 视 化 
展现 出 来 。 例 如 ， 画 一 条 定义 域 为 [-3.3] 的 ^ 
Sigmoid 国 数 曲线 。Sigmoid AŠA 


要 l 
y= Ipe” 3 2 4 0 1 2 3 
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0.4 0.6 


0.2 











用 户 只 需要 输入 如 下 指令 ， 就 可 以 得 到 如 图 7-8 图 7-8 R 绘图 
所 示 的 截图 。 
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> x<-seg(-3,3,by=0.01) 
> y<-1/ (1l1+exp (-x)) 


> plot (x,y) 








R 语言 的 使 用 方式 是 通过 命令 行 的 形式 来 实现 鸭 。R 语言 的 特点 十 比较 人 简单、 容易 理 
AE. ACA LEMIRE, 初学 者 基本 上 学 习 半 天 时 间 就 i VA wel 1) — 48 8: ARATE 
实验 。RStudio 是 针对 R 语言 的 一 款 IDE 工具 ， 下 面 会 通过 一 个 案例 ， 详 细 介 绍 如 何 通过 
RStudio 跑 通 逻辑 回归 算法 。 




















(2) 安装 。 本 书 的 实验 环境 是 Mac OX 10.11.1 EI Capitan 系统 。 使 用 RStudio 需要 首先 
安装 及 语言 包 ， 读 者 可 上 Rigs, HUE https://www.r-project.org/, 48 
Wa. TD RAAE Am AT Aim FA, WE 7-9 所 示 。 


R Console 





— 
em. 


R version 3.3.1 (2016-06-21) -- "Bug in Your Hair" 
Copyright (C) 2016 The R Foundation for Statistical Computing 
orm: x86. 64-apple-darwini3.4.0 (64-bit) 


R 是 自由 软件 ， 不 带 任何 担保 。 
革 些 条 件 下 你 可 以 将 其 自由 散 
Ri'licenseO'zxi'li pte 来 看 散布 的 详细 条 件 。 


R 是 个 合作 计划 ， 有 许多 人 为 之 做 出 了 贡献 . 
FA'contributors() "来 看 合作 者 的 详细 情况 
Fi'citationQ ' 会 告诉 你 如 何在 出 版 物 中 正确 地 引用 R 或 R 程 序 包 。 


用 "demo() "来 看 一 些 示范 程序 ， 用 "heLp() "来 阅读 在 线 帮 助 文件 ， 或 
Ri'help.start() ' 通 过 HTML 浏 览 器 来 看 帮助 文件 。 

Fi'aO "退出 R. 

[R.app GUI 1.68 (7238) x86. 64-apple-darwin13.4.0] 
[Workspace restored from 


rom /Users/garvin/ .RData] 
[History restored from /Users/garvin/.Rapp.history] 





图 7-9 R 终端 


安装 R 语言 之 后 ， 就 可 以 安装 RStudio, 下 载 地 址 为 https://www.rstudio.com/， J: AR 
面 ， 如 图 7-10 所 示 。 


(3) 运行 实验 。 安 闭 RStudio 完成 之 后 ， 本 次 实验 将 会 针对 一 份 开源 数据 集 进 行 逻辑 
回归 模型 训练 实验 。 首 先导 入 数据 ，RStudio 支持 多 种 数据 格式 的 导入 ， 部 分 格式 可 能 需 
要 安装 对 应 的 函数 包 。 本 次 实验 导入 的 是 CSV 格式 文件 ， 导 入 方法 有 两 种 ， 可 以 使 用 
RStudio 提供 的 Import Dataset ZH, tHE VAMI An F AKE 


























eee 
Qi 2- 


.jdata *  jtestSet 


y Filter 


-0.017612 
-1.395634 
-0.752157 
-1.322371 
0.423363 
0.406704 


v2 

14.053064 
4.662541 
6.538620 
7.152853 

11.054677 
7.067335 


Showing 1 to 6 of 100 entries 


Console 


R version 3.3.1 (2016-06-21) -- "Bug in Your Hair" 
Copyright (C) 2016 The R Foundation for Statistical Computing 
Platform: x86 64-apple-darwinl13.4.0 (64-bit) 


R 是 自由 软件 ， 不 带 任何 担保 。 
在 某 些 条 件 下 你 可 以 将 其 自由 散布 。 
用 'license() ' 或 'Licence()' 来 看 散布 的 详细 条 件 。 


R 是 个 合作 计划 ， 有 许多 人 为 之 做 出 了 贡献 . 
Ri'contributorsQ) ' 来 看 合作 者 的 详细 情况 
用 'citation() "会 告诉 你 如 何在 出 版 物 中 正确 地 引用 R 或 R 程 序 包 。 


Ri'demo() "来 看 一 些 示范 程序 ， 用 " heLp(7 "来 阅读 在 线 帮助 文件 ， 或 


Ri'help.start() ' 通 过 HTML 浏 览 器 来 看 帮助 文件 。 


RI'qO "退出 R. 


[Workspace loaded from ~/.RData] 


- 


7.2 单机 版 机 器 学 习 工具 


国 Project: (None) ~ 


Environment History et] 


€ B  F$ToConsole | Z6 To Source | Q] g% 


^ Gp Eoc UNA VCURUA, ACA 


set.seed(665544) 

n «- 600 

data <- data.frame(cbind(runif(10, 0, 10)«rnorm(n, sd-0.2), runif(10, 0,.. 
names(data) <- c('x','y') 

library(Cggplot2) 

qplot(data$x, data$y) 

libraryCjiebaR) 


Files Plots Packages Help Viewer 
JS Export ~ 
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> data «- read.csv("~/Documents/work/book/data/data.csv", sep=";") 


> View (data) 














导入 数据 之 后 ， 用 户 束 可 以 可 视 化 查看 数据 ， 如 图 7-11 Aras. 


下 面 介绍 如 何 对 数据 进行 逻辑 回归 处 理 。 其 实在 RStudio 里 面 上 只 需要 以 下 一 行 代 但 瓯 


可 以 实现 。 


& | y Filter 


fixed.acidity volatile.acidity 


7.4 
7.8 
7.8 
11.2 
7.4 
7.4 
7.9 
7.3 
7.8 


2 
3 
4 
5 
6 
7 
8 
9 
0 


7.5 


一 
一 


6.7 


Showing 1 to 12 of 499 entries 


0.700 
0.880 
0.760 
0.280 
0.700 
0.660 
0.600 
0.650 
0.580 
0.500 
0.580 


citric.acid 
0.00 
0.00 
0.04 
0.56 
0.00 
0.00 
0.06 
0.00 
0.02 
0.36 
0.08 





图 7-11 





e 


residual.sugar chlorides free.sulfur.dioxide total.sulfu 


1.90 0.076 11 
2.60 0.098 
2.30 0.092 
1.90 0.075 
1.90 0.076 
1.80 0.075 
1.60 0.069 
1.20 0.065 
2.00 0.073 
6.10 0.071 
1.80 0.097 


R 数据 导入 
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mylogit <- glm(label ~ ., data = data, family = binomial(link-'logit')) 
e mylogit a 8 pl DI s b. 

e glm ERREK. 

e label 是 目标 列 ，~ RARER HERI ASIMI FES. 

e data 表示 效 据 集 。 





e binomial 表示 二 分 类 。 
e link='logit ANF ANA 


用 户 可 以 通过 summary P2088 ^E BAY 








summary (mylogit) 
结果 如 图 7-12 所 示 。 


., family = binomial(link = "logit"), data = data) 


Deviance Residuals: 
1Q Median 3Q Max 
-0.8404 -0.1758 @. 8808 2.3967 


Coefficients: 
Estimate Std. Error z value Pr(»lIzl) 
(Intercept) .056350 163.187754 40.019 0.98506 
fixed.acidity .399431 .200390 1.993 0.04623 
volatile.acidity 895211 .897362 -4.341 1.42e-05 
i i . 884209 .036392 -2.783 0.00539 
. 006061 .102764 -0.059 0.95297 
-472794 .485806 -0.995 0.31985 
free.sulfur.dioxide . 038805 .017292 2.244 0.02482 
total.sulfur.dioxide  -0.026382 .005996 -4.400 1.08e-05 
-15.696119 949515 -0.094 0.92510 
0.847058 .405472 . 0.603 0.54672 
1.924995 .645295 2.983 0.00285 
0.879066 .187647 4.685 2.80e-06 


Signif. codes: @ '***' 90,001 '**' 9.01 **' 0.05 *. Q.1* " 1 
(Dispersion parameter for binomial family taken to be 1) 
Null deviance: 691.42 on 498 degrees of freedom 


Residual deviance: 510.97 on 487 degrees of freedom 
AIC: 534.97 


Number of Fisher Scoring iterations: 5 





7-12 逻辑 回归 结 





ZR ( WR] 7-12 ) 中 的 Estimate 字段 束 是 生成 的 饮 辑 回 岂 模型 系 效 ， 我 们 可 以 得 到 最 


7.2 单机 版 机 器 学 习 工具 


£X BG ERE ER UTERE RET P o 


logire5.0540.59*rixed.acidity-2.909*volatile.acidity-2.90*ciblrfic.acid-0.006*r 
esidual.sugar-2.47*chlorides+0.03*free.sulfur.dioxide-0.02*total.sulfur.dioxide- 


15.69*densityt0.84*pHTl.92*sulphatest0.97*alcohol 





Zh, HP usur poli R BS SKIN AI RR Rea — PRA T 
> plot (mylogit) 


此 时 可 以 看 到 结 末 如 图 7-13 所 示 。 


Residuals vs Fitted 


Hesiduals 
Ü 





-4 2 0 2 4 


Predicted values 
glm(label ~ .) 


图 7-13 图 形 拟 合 曲 线 


通过 上 面 的 实验 ， 读 者 可 以 简单 了 解 RStudio 以 及 及 语言 的 语法 和 操作 方式 ， 可 以 看 
到 RR 语言 的 语法 十 非常 容易 理解 的 , 而 且 对 结 来 的 图 形 化 展示 功能 也 能 让 数据 操作 者 更 直 
观 地 观察 结果 输出 。 在 数据 源 支 持 方 面 ，RStudio 支持 导入 本 地 数据 源 ， 同 时 也 支持 服务 
合 连 接 。 具 体 支 持 有 的 档 式 可 以 通过 安 六 相应 的 插件 来 扩展 ， 基 本 包含 了 SPSS 的 全 部 格式 ， 
对 各 种 数据 库 文 件 也 有 民 好 的 文 持 。 


在 算法 文 持 方 面 , 因为 R 语言 是 建立 在 开源 社区 之 上 的 ,所 以 有 很 多 算法 包 可 供 选 择 ， 
其 本 涵盖 了 特征 工程 、 分 类 算法 、 聚 类 算法 、 回 归 算 法 和 人 神经 网 络 算法 等 弟 规 机 林学 习 算 
法 ， 而 且 在 算法 扩展 性 方面 , 也 文 持 对 算法 进行 更 大 幅度 的 目 定 义 改造 。 因 为 R 语 言 具 备 
如 此 多 的 优 民 特性 , 所 以 近期 有 越 来 越 多 的 分 布 式 系 统 正 在 对 R 语言 进行 改造 , HB R38 
言 也 可 以 实现 分 布 式 的 计算 , 从 而 突破 目前 所 过 到 的 计算 资源 上 的 竹 贷 , 未 来 的 云 RStudio 
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会 更 加 令 人 期 街 。 总 之 ，R 语言 对 于 做 数据 挖掘 的 工程 师 米 讲 ， 和 是 一 个 非 汕 理想 的 实验 环 
境 ， 特 别 是 在 计算 结 来 可 视 化 呈现 方面 。 








7.2.3 工具 对 比 


通过 上 而 对 SPSS 软件 和 RStudio 两 种 单机 版 工具 的 介绍 , Bl DR BOT A iW iF 
工具 有 了 一 定 的 了 解 。 两 者 在 使 用 上 存在 一 定 区 别 , SPSS 软件 通过 类 似 于 数据 表格 方式 的 
数据 操作 形式 ， 使 数据 处 理 更 加 直观 和 便捷 。RStudio 通过 命令 行 的 方式 进行 函数 的 调用 ， 
使 整个 算法 的 逻辑 更 清晰 。SPSS 软件 和 RStudio 各 有 长 处 ，SPSS 软件 作为 商业 软件 , 它 的 
可 视 化 操作 更 便捷 ， 特 别 是 统计 类 算法 组 件 的 分 类 更 为 细致 。RStudio 是 开源 软件 ， 扩 展 
性 很 好 ， 而 旦 在 跨 半 台 性 能 以 及 结果 的 可 视 化 呈现 方面 非常 出 色 。 


两 蒜 软 件 对 机 楷 学 习 的 初学 者 来 奔 痢 古 非 常 实 用 的 工具 ,但 是 它们 也 存在 一 定 的 缺 
陷 ， 如 在 数据 预 处 理 方面 的 灵活 性 并 不 局 ， 如 末 想 进行 特征 工程 工作 可 能 盐 要 很 烦 开 的 步 
To HIN, 因为 SPSS 软件 和 RStudio iH Ai eRe tT EPL LAY, 对 大 规模 数据 的 处 理 能 
力 还 是 比较 低 效 的 。 作 为 大 数据 挖掘 这 门 学 科 来 讲 ， 只 有 数据 量 足 喇 大 , 甚至 是 TB 级 别 ， 
才能 展现 出 数据 市 给 我 们 的 魅力 和 智 闻 。 所 以 如 采 真 的 想 进行 大 数据 方面 的 研究 ,还 是 委 
春 眼 于 分 布 式 计 算 思 想 ， 下 面 将 重点 来 介绍 分 布 式 机 本 学 习 工 其 。 
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前 面 介 绍 了 一 下 单机 版 的 机 器 学 习 工 具 SPSS 软件 和 RStudio， 作 为 单机 版 的 工具 ， 
不 用 关心 集群 配置 和 运 维 等 操作 ， 所 以 SPSS 软件 和 RStudio 都 具有 容易 安装 和 上 手 的 
特点 。 但 是 在 实际 的 使 用 过 程 中 ， 特 别 是 数据 量 比较 大 的 情况 下 ， 就 会 出 现 效率 低下 
的 问题 。 对 大 规模 的 机 器 学 习 计 算 ， 需 要 通过 分 布 式 架 构 进 行 处 理 ， 本 市 将 重点 介绍 
一 下 目前 比较 流行 的 两 种 支持 分 布 式 机 妖 学 习 二 具 , 分 别 是 Spark MLib 和 Tensorflow。 























7.3.1 Spark MLib 
1. 简介 


MLib 是 Spark MIIL SEE, EENIA VA Spark TEAZRZJAERITAEERSD T 
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习 算 法 系统 日 前 正在 广泛 地 运用 到 各 种 领域 当中 。 既 然 要 从 处 理 实际 的 工业 界 场景 的 角度 
Hi, Spark 和 Hadoop 的 MapReduce 框 染 是 日 前 业内 最 主流 的 两 种 开 产 分 布 式 染 构 ， 难 
人 免 要 对 它们 进行 一 下 对 比 ， 我 们 单 从 对 机 器 学 习 算 法 的 支持 方面 考虑 如 下 。 


(1) WEARS. HRA ON REIT, 我们 了 解 到 大 部 分 算法 需要 遂 
过 多 步 又 的 碗 代 计 算 才 可 以 实现 ， 如 柳 上 度 下 降 算 法 ， 第 要 通过 多 次 迭代 计算 损失 六 数 ， 然 
Ie A Ade DRE. FEZ Hadoop 的 MapReduce 计算 框架 ,在 每 次 迭代 的 过 程 中 
都 需要 对 硬盘 进行 读 写 ， 这 样 束 造成 了 很 大 的 IO 消耗 ， 降 低 了 效率 。 而 Spark 分 布 式 计 
算 框 染 是 基于 计算 机 内 存 来 进行 迭代 计算 的 ， 通 过 将 大 量 的 计算 工作 在 内 存 中 处 理 的 方 
式 ， 可 以 大 大 减少 对 硬盘 的 数据 读 写 ， 从 而 提高 迭代 类 算法 的 计算 效率 。 

(2) 从 集群 通信 的 角度 分 析 。Spark 的 Akka 和 Netty 通信 系统 在 信息 传递 和 数据 传递 
两 方面 ， 从 效率 上 来 讲 部 远 远 优 于 Hadoop 的 JobTracker 间 的 通信 机 制 。 

以 上 两 点 是 从 分 布 式 计算 染 构 的 角度 分 析 得 到 的 Spark 相 较 于 MapReduce 的 优势 ， 
下 面 介绍 Spark MLib 库 的 一 些 属性 。MLib 作为 分 布 式 机 带 学 习 算 法 库 , 设计 的 初衷 是 
使 机 器 学 习 算 法 更 容易 使 用 和 扩展 。MLib 包含 了 常规 的 机 器 学 习 算法 ， 见 表 7-3。 
























































表 7-3 MLib 包含 算法 
基本 统计 类 全 表 统 计 、 随 机 数据 生成 、T 检验 、 分 层 采 样 、 相 关系 数 检 查 
SVM, 逻辑 回归 、 线性 回归 、 杆 素 贝 叶 斯 、 决 策 树 、 随机 森林 、GBDT、 





分 类 和 回归 . ; 
Isotonic Regression 
聚 类 算法 K-means、PIC、LDA、Streaming K-means 
降 维 SVD、PCA 
Frequent pattern mining FP-growth, Association Rules. — PrefixSpan 











对 数据 集 的 文 持 方面 ,Spark MLib Sc EZB — 28 Al c AREA, [HIE SZ RES 
弹性 分 布 式 数据 集 (Resilient Distributed Dataset, RDD ) RDD 是 分 布 式 内 存 的 一 个 抽象 
概念 ， 提 供 一 种 高 度 受 限 的 内 存 模型 ， 可 以 看 作 Spark MLib 的 一 个 对 象 ， 运 行 在 内 存 中 。 
以 上 是 对 Spark MLib 的 基础 介绍 ， 下 面 介绍 如 何 构建 Spark MLib Hla AZ. 

















2. 安装 配置 环境 

(1) 首先 下 载 Spark， 实 验 环 境 为 MacOS, WEE jdk。Spark 下 载 地 址 为 
http://spark.apache.org/downloads.html， 下 载 完成 后 解压 ， 在 命令 行 终 疹 进 入 Spark Hox, 
执行 如 下 命令 就 可 以 局 动 Spark。 








./sbin/start-master.sh 











JAG) Spark Za, HAP Ae DESH localhost://8080 查看 ， 如 图 7-14 所 示 。 


pak ,,. Spark Master at spark://osx10111-e0accb813994.local:7077 


RL: spark://osx10111-e0accb813994.local:7077 
REST URL: spark://osx101 11-e0accb813994. local:6066 (cluster mode) 


Applications: 0 Running, 0 Completed 
Drivers: 0 Running, 0 Completed 


Address 


Running Applications 
Application ID Memory per Node Submitted Time Duration 


ompleted Applications 
Application ID Memory per Node Submitted Time Duration 





7-14 登录 Spark 


(2) 我 们 发 现 此 时 的 Workers 和 Running Applications 都 是 空 的 ， 因 为 Spark 是 基于 分 
布 式 系统 的 计算 框架 ， 所 以 需要 添加 Worker 才能 让 这 个 系统 运行 起 来 ， 否 则 是 不 能 使 用 
的 。 为 了 方便 讲解 , 这 里 把 本 机 次 加 成 Worker， 交 加 其 他 集群 机 需 的 原理 是 相同 的 。 凑 加 
Worker 需要 deploy worker 的 命令 如 下 。 

















./bin/spark-class org.apache.spark.deploy.worker.Worker spark://IP:PORT 
QUIRES EAL, IP:Port 可 以 通过 图 中 的 框 线 处 得 到 ， 如 图 7-15 所 示 。 


Dark ,,, Spark Master agspark://osx10111-e0accb813994.1ocal:7077 


RL: spark//osx10111-a0accba13994, local 7077 
REST URL: spark//osx10111-e(accp8 138984. ocak 066 (mustar moda) 
Alive Workers: 0 
ores in use: U Total, 0 Used 
lemory in use: 0.0 B Total, 0.0 B Used 
Applications: 0 Running, 0 Completed 
Drivers: 0 Running, 0 Completed 


Address 


Running Applications 


Application ID Memory per Node Submitted Time Duration 


ompleted Applications 


Application ID Memory per Node Submitted Time 





图 7-15 IP Ej 


KGAA LANDA Worker 之 后 ， 再 次 刷新 localhost:8080 RAT UAR] Worker 出 现在 列表 中 
了 ， 如 图 7-16 Ata. 
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Spark Master at spark://osx10111-e0accb813994.local:7077 


2.0.0 


URL: spark://osx10111-e0accb813994.local:7077 

REST URL: spark://osx10111-e0accb813994.local:6066 (cluster mode) 
Alive Workers: 1 

Cores in use: 4 Total, 0 Used 

Memory in use: 7.0 GB Total, 0.0 B Used 

Applications: 0 Running, 0 Completed 

Drivers: 0 Running, 0 Completed 

Status: ALIVE 


Workers 


Worker Id Address Cores Memory 
worker-20160923101506-30.27.90.9-63959 30.27.90.9:63959 4 (0 Used) 7.0 GB (0.0 B Used) 


Running Applications 


Application ID Memory per Node Submitted Time Duration 


Completed Applications 


Application ID Memory per Node Submitted Time Duration 
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3. 示例 

通过 前 面 的 介绍 ,我 们 已 经 完成 了 底层 的 计算 引 敬 的 配置 ， 接 下 来 介绍 如 何在 这 样 的 
引擎 上 运行 代码 服 辑 。 我 们 还 是 通过 程序 员 了 最 杀 切 的 Hello World 为 例 ， 讲 一 下 如 何 推送 
代码 逻辑 到 Spark 计算 引擎 。 


这 里 再 要 一 个 在 本 地 编辑 代 但 的 工具 , 可 以 选用 Eclipse kA Intelli] IDEA, 也 可 以 选用 
其 他 熟悉 的 环境 。 本 案例 选用 IntelliJ IDEA。 首 先 下 载 安装 Intellij IDEA, 进入 产品 之 后 先 要 安 
^R: Scala, AA Spark 是 支持 Scala 语言 的 ( Scala 是 一 门 多 范式 的 编程 语言 ,语法 规则 类 似 于 Java, 
是 一 种 面向 对 象 语言 ) 用 户 可 以 通过 IntelliJ IDEA 在 线 安装 Scala 的 SDK. 


有 了 Scala 的 SDK 之 后 ， 用 户 束 可 以 新 建 一 个 Scala 的 Project， 如 图 7-17 Aira. 


e © New Project 





























Pa Java 
Pa Java FX = SET 
i Android = Activator 


六 Intellij Platform Plugin 
m Maven 
(€ Gradle 


(G Groovy 
©) Griffon 


K Kotlin 


Ez Empty Project 
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设置 新 建立 的 Project KFY hello world， 然 后 就 可 以 看 到 这 样 的 Project: 包括 hello 
world 和 External Libraries 两 个 文件 夹 。 右 键 单 击 helloworld 文件 夹 下 面 的 src 文件 夹 一 New 一 
Scala class。 需 要 设置 新 生成 的 文件 是 Object 类 型 ， 如 图 7-18 Aran. 

















设置 Name 为 Test， 然 后 在 文件 中 添加 一 上 段 “Hello World” 的 代码 如 下 。 


Jik 
* Created by garvin on 16/9/23. 
ard 
object Test { 
def main(args:Array[String]) :Unit={ 


printin( “hello world” ) 


) 


这 样 一 个 简单 的 打印 hello world 的 代码 就 写 好 了 ， 接 着 我 们 把 这 上 段 代码 打包 成 jar X 
件 。 单 击 菜 单 栏 中 的 build， 选 择 build artifacts 一 build， 整 个 程序 的 打包 工作 就 开始 了 。 $T 
包 完 成 之 后 可 以 在 输出 的 out 文件 夹 中 看 到 生成 的 helloworld.jar XH, WE 7-19 所 示 。 


helloworld ~/IdeaProjects/helloworld 
F3 .idea 
Bout 
11 © artifacts 
© helloworld_jar 

















© Oo Create New Scala Class 


Name: 





Kind: '& Class od lil helloworld.jar 
© production 


'& Class 


D Trait p à helloworld.iml 





图 7-18 生成 新 class 图 7-19 输出 文件 列表 


现在 有 了 线 下 的 算法 包 jar 文件 ， 只 要 通过 命令 行 有 的 推送 命令 把 算法 包 推 送 到 Spark 
计算 引擎 上 就 可 以 了 。 用 户 可 以 通过 spark-submit 命令 来 完成 以 上 任务 ， 具 体 代码 如 下 。 





./bin/spark-submit --class Test --master spark://localhost:7077 helloworld.jar 
这 里 指派 了 执行 任务 的 Worker 市 点 是 master, ja M helloworld.jar 文件 的 路 径 。 


最 终 的 计算 结 未 可 以 在 终端 中 直接 显示 出 来 ,，“hello world” 被 打印 出 来 ， 如 图 7-20 
所 示 。 








7-20 结 
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逻辑 回归 实验 
朋 面 已 经 讲 了 环境 的 搭建 ， 这 方 介绍 一 下 如 何 跑 通 一 个 远 辑 回归 实验 。 首 先 需 要 湛 加 
MLib 等 算法 依赖 包 , 打开 IntelliJ IDEA 的 Project Structure, 然后 单 击 左 边 的 Modules 按钮 ， 
在 列表 中 找到 Dependencies， 然 后 has: RIISIK. ELIO RT] VA 
Z) Fa, tn] Vata Maven 安装 ， 如 图 7-21 Br. 


Project Structure 





























Name: |LR 
Project Settings 
Project 
Modules 


Libraries 


Sources Paths Dependencies 


Module SDK: | F2 Project SDK (1.8 - Edit 


Facets Export Scope 

Artifacts 
Platform Settings EI «Module source» 

SDKs Pa scala-sdk-2.11.8 Compile - 
li] spark-mllib, 2.10- 1.6.1.jar (/Users/garvin/Downloads/rar (3)- 1) Compile - 
ill; depend Compile - 


Global Libraries 


Problems 


+ — a v 2 


Dependencies storage format: ‘ IntelliJ IDEA (.iml) 
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洪 加 完 依赖 之 后 就 可 以 在 新 建 的 object 中 (同上 文 的 hello world ) 进行 代码 的 编写 。 
实验 代码 如 下 。 


Jka 
* Created by garvin on 16/9/23. 
ae 
import org.apache.spark.mllib.classification.LogisticRegressionWithSGD 
import org.apache.spark.mllib.linalg.Vectors 
import org.apache.spark.mllib.regression.LabeledPoint 


import org.apache.spark.{SparkConf, SparkContext] 
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object Test { 
def main(args: Array[String]) { 
val conf = new SparkConf().setMaster("local[4]").setAppName (this.getClas 
s().getSimpleName().filter(! .equals('$'))) 


val sc - new SparkContext (conf) 


val data = sc.textFile("/Users/garvin/Desktop/LR.txt") 


val parsedData = data.map { line => 


val parts = line.split(',') 
LabeledPoint (parts (0) .toDouble, Vectors.dense(parts(1).split(' ').map( 
.a toDouble))) 
} .Cache t) 


parsedData.foreach(println) 

val model - LogisticRegressionWithSGD.train(parsedData, 50) 
val target - Vectors.dense(-1) 

printin("model.weights:") 

printin(model.weights) 

printin(model.predict (Vectors.dense(10))) 


sc.stop 








e 读 取 的 数据 文件 是 本 地 的 txt 文件 ， 为 了 使 结果 简单 ， 这 里 
只 设置 了 一 个 特征 和 一 个 目标 纠 这 样 的 数据 。 第 一 行 定 目标 
列 ， 通 过 去 写 分 隅 ， 部 分 数据 如 图 7-22 PR o 


























e 代 但 中 需要 关注 的 是 LogisticRegressionWithSGD 这 个 函数 ， 
里 面 封 装 的 是 逻辑 回归 梯度 下 降 算 法 的 逻辑 。 通 过 这 个 算法 
可 以 看 出 来 MLib 中 算法 封 闻 的 使 用 还 是 相对 比较 友好 的 。 
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。 了 最 终 打 印 出 米 的 是 唯一 一 个 特征 的 权重 ， 还 有 对 第 10 个 数 7-22 ”部 分 数据 
据 的 预测 结 
按照 上 一 下 介绍 的 方式 把 这 个 计算 逻辑 发 布 到 Spark ESEE, Ri AA 
冰 人 不 断 地 打印 出 计算 引擎 Executor 的 信息 ,最 后 会 打印 出 代 但 中 设置 的 输出 结 未 ,如 图 7-23 
所 示 。 
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16/09/23 15:38:01 INFO DAGScheduler: Job 46 finished: treeAggregate at GradientD 
escent.scala:239, took 0.019051 s 

16/09/23 15:38:01 INFO GradientDescent: GradientDescent.runMiniBatchSGD finished 
. Last 10 stochastic losses 0.6307644134901648, 0.6301608260893138, 0.6296184986 
476802, 0.6293831586494314, 0.6292340893598364, 0.629169306843859, 0.62913723850 
0662, 0.629124248479972, 0.6291189226820649, 0.6291169842584432 


odel.weights: 
[-0.10590621151462869] 
1.0 
2.2 
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5. 小 结 


通过 一 个 实例 ， 本 市 讲解 了 如 何 部 嬉 Spark 分 布 式 计算 框 染 人 以 及 如 何在 Spark 上 面 运 
行 逻 辑 回 归 算 法 。Spark MLib 作为 一 个 开源 的 分 布 式 机 器 学 习 算法 库 包 含 着 丰富 的 算法 ， 
而 且 在 算法 的 操作 层面 上 做 得 也 比较 友好 。 因为 开源 的 原因 , 不 断 地 有 算法 贡献 者 为 MLib 
注入 活力 。 关 于 Spark MLib 库 还 有 一 个 特别 实用 的 属性 需要 介绍 一 下 。 我 们 知道 机 器 学 习 
的 问题 并 不 是 一 步 算 法 实验 就 可 以 解决 的 , 一 个 完整 的 流程 需要 包括 数据 的 预 处 理 、 特 征 
工程 、 算 法 运算 、 预 测 和 评估 。 如 果 需 要 处 理 的 数据 量 很 大 ， 这 些 步 又 都 需要 分 布 式 来 处 
理 ， 这 就 需要 一 个 办 法 把 这 些 步骤 都 串 起 来 。Spark MLib Pipeline 的 出 现 , 解决 了 MLib 在 
处 理 复杂 机 器 学 习 上 的 弊端 , 提供 了 更 加 方便 的 方法 以 构建 机 器 学 习 工 作 流 。 一 个 Pipeline 
在 结构 上 会 包含 一 个 或 多 个 PipelineStage， 每 一 个 PipelineStage 都 会 完成 一 个 任务 ， 如 数 
据 预 处 理 和 特征 工程 等 ， 这 样 一 来 整个 的 机 颖 学 习 流 程 束 可 以 申 起 来 。 依 靠 Pipeline 加 上 
MLib 的 机 器 学 习 算法 库 , 就 可 以 构建 一 套 完整 的 数据 挖 据 流 程 , 虽然 Spark ZEB ASE 
上 可 能 还 有 一 些 比较 奈 烦 的 地 方 ,， 但 是 未 来 随 着 开源 社区 的 发 展 ，Spark MLib 会 是 开源 分 
布 式 机 顺 学 习 解决 方案 中 不 错 的 选择 。 
















































































7.3.2 TensorFlow 


1. 简介 

TensorFlow， 是 一 个 开源 的 机 融 学 习 框 漆 ， 是 基于 知名 的 DistBelief 开发 的 。 最 初 的 
TensorFlow 由 “ 合 歌 大 脑 ” 团 队 的 研发 人 员 开 发 ， 定 用 来 研究 深度 神经 网 络 的 工具 ,但 
和 是 随 着 架构 的 不 断 完善 ， 整 个 系统 已 经 被 改造 得 可 以 适用 于 多 种 不 同 的 场景 。Google 在 
2015 年 将 TensorFlow 开源 后 ,迅速 得 到 来 目 开 行业 各 界 的 强人 多 反应 。Android 作为 Google 
开源 产品 的 标杆 ,已 经 占领 了 移动 端 市 场 ， 人 们 都 在 猜测 ，TensorFlow 或 许 是 Google xt 
军人 工 智能 市 场 的 一 把 “尖刀 ”。 目 前 来 看 ，TensorFlow 具备 看 优 民 的 特性 ， 而 且 在 新 的 
版 本 中 已 经 支持 了 分 布 式 计算 。 在 未 来 一 段 时 间 里 ，TensorFlow 势必 要 引领 机 器 学 习 的 一 
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ESSE 

先 来 简单 介绍 一 下 什么 是 TensorFlow， 从 字面 意思 来 理解 ，Tensor 表示 张 量 ， 是 指 任 
意 维 度 的 数据 。 在 TensorFlow 中 ,数据 是 通过 数据 流 的 形式 在 算法 节点 中 流转 的 。 我 们 通 
过 深度 学 习 的 一 张 架构 流程 图 ( 见 图 7-24) 来 解释 。 


























f 
j pr 


输入 节点 O Ne 输出 节点 





通过 这 张 深度 学 习 的 架构 图 来 分 析 , 图 7-24 中 坚 形 单元 表示 算法 层 ， 有 输入 层 、 隐 藏 
层 和 输出 层 ， 每 个 圆 形 的 单元 是 计算 节点 。TensorFlow 中 的 数据 以 数据 流 的 形式 在 计算 节 
RH. MRA, WEEE, SUSTAIN, HOES IRE, Flow 表示 的 项 定数 
据 的 这 种 流动 。 仅 从 字面 意思 来 看 ，TensorElow 的 具体 计算 形式 已 经 表现 得 很 清楚 了 。 
































下 面 简单 介绍 下 TensorFlow 的 一 些 特性 。 


(1) 灵活 性 。TensorFlow 的 灵活 性 不 只 表现 在 对 算法 的 文 持 上 ， 也 表现 在 架构 方面 。 
TensorFlow 文 持 单机 计算 和 分 布 式 计算 ,同时 也 可 以 将 计算 在 CPU 和 GPU 之 间 灵 活 切换 。 
只 需要 一 个 简单 的 API 就 可 以 将 计算 部 绪 在 本 地 机 絮 、 玫 机 设备 、 云 服务 颖 的 CPU 或 者 
GPU HH, TensorFlow 让 计算 的 分 发 和 部 车 更 加 灵活 。 



































在 对 算法 的 文 持 方面 ，TensorFlow 个 单 早 是 一 个 神经 网 络 库 ， 它 还 可 以 看 作 机 妖 学 习 
的 编程 以 构 ,开发 者 可 以 将 上 自己 的 算法 逻辑 写成 流 多 的 形式 ， 然 后 束 可 以 把 目 己 定义 的 算 
法 运行 在 TensorFlow 的 染 构 中 去 。 因 为 TensorFlow 征 开 源 的 ， 用 户 可 以 对 神经 网 络 中 的 
任何 细节 进行 目 定义 ， 充 分 实现 代 介 和 算法 方面 的 灵活 性 。 


(2) BAM. TensorFlow 可 以 目 动 计算 梯度 ， 只 需要 手动 设置 好 计算 淋 构 ,设置 好 日 
brea, AAAS A SERIA], 中 间 的 计算 和 参数 权重 变化 都 是 目 动 完成 的 ,同时 系 
统 也 提供 了 办 法 帮助 用 户 监 督 整 个 计算 流程 。 在 具体 使 用 万 面 ， 里 然 TensorFlow 的 底层 代 
码 是 通过 C++ 来 编写 的 ， 但 是 可 以 通过 Python 接口 来 创建 计算 流 图 。 用 户 在 逻辑 代码 的 计 
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算 框 染 编写 方面 也 比较 容易 上 于。 

(3) 民 好 的 资源 调度 能 力 。TensorFlow 可 以 帮助 开发 者 充分 利用 计算 资源 。 对 计算 资 
源 的 调度 可 以 高 度 自 定义 ， 可 以 自由 调用 CPU 和 GPU， 同 时 也 支持 线程 、 队 列 和 异步 计 
算 等 。TensorFlow 计 开 发 者 可 以 充分 利用 自 二 的 硬件 资产， 而且 可 以 让 数据 流 在 不 同 的 机 
ar E H HEE o 

















2. 实验 环境 搭建 

前 面 介 绍 了 TensorFlow 的 一 些 概要 和 基本 性 能 ， 接 下 来 介绍 搭建 TensorFlow 的 实验 环 
境 ， 并 且 跑 通 程序 员 们 最 熟悉 的 程序 一 Hello World。 使 用 的 环境 是 Mac OS 系统 ， 因 为 本 
书 以 介绍 产品 为 目的 ， 这 里 就 只 配置 本 地 单机 版 的 运行 环境 ， 实 际 上 TensorFlow 是 有 支持 
分 布 式 版 本 的 。 

(1) Ze pip. pip 是 Mac 系统 中 的 一 个 Python 的 安装 工具 ，TensorFlow 可 以 通过 pip 
目 动 安装 ， 具 体 命令 如 下 。 
































sudo easy install pip 


sudo easy install --upgrade six 
WREAK T pip， 可 以 忽略 这 一 步 。 


(2) X3X€ Virtualenv. Virtualenv 是 一 个 用 于 隔离 本 地 Python 环境 的 工具 ， 因 为 
TensorFlow 在 使 用 过 程 中 需要 对 环境 参数 做 一 定 的 调整 ， 所 以 推荐 安装 Virtualenv 来 进行 
品 离 。 具 体 的 操作 步骤 是 首先 安装 Virtualenv， 命 令 如 下 。 























sudo pip install --upgrade virtualenv 
然后 在 Virtualenv 环境 中 创建 一 个 tensorflow 目录 ,命令 如 下 。 
virtualenv --system-site-packages ~/tensorflow 

激活 环境 ， 可 以 通过 activate 和 activate.csh 两 种 方式 ， 命 令 如 下 。 


source ~/tensorflow/bin/activate # If using bash 


source ~/tensorflow/bin/activate.csh # If using csh 


(3) E TensorFlows HWA LA pip 在 这 个 环境 下 安 竣 TensorFlow f, Ips 
Python 的 版 本 不 同 而 选择 不 同 的 安装 命令 如 下 。 
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# Python 2 
(tensorflow)$ pip install --upgrade STF BINARY URL 
# Python 3 


(tensorflow)$ pip3 install --upgrade $TF BINARY URL 





fi e rH TF. BINARY. URL 需要 根据 系统 版 本 ，Python 版 本 是 否 文 持 GPU 来 进行 选择 。 


# Mac OS X, CPU only, Python 2.7: 
(tensorflow)Sexport TF BINARY URL-https://storage.googleapis.com/tensorflow/ 
mac/cpu/tensorflow-0.10.0-py2-none-any.whl # Mac OS X, GPU enabled, Python 2.7: 
(tensorflow)Sexport TF BINARY URL-https://storage.googleapis.com/tensorflow/mac 
/gpu/tensorflow-0.10.0-py2-none-any.whl 
# Mac OS X, CPU only, Python 3.4 or 3.5: 
(tensorflow)Sexport TF BINARY URL-https://storage.googleapis.com/tensorflow 
/mac/cpu/tensorflow-0.10.0-py3-none-any.whl 
# Mac OS X, GPU enabled, Python 3.4 or 3.5: 
(tensorflow)Sexport TF BINARY URL-https://storage.googleapis.com/tensorflow/ 


mac/gpu/tensorflow-0.10.0-py3-none-any.whl 


(4) 示例 。 前 面 已 经 把 TensorFlow 的 计算 A 我 们 激活 Virtualenv 下 面 的 
TensorFlow 后 ,会 进入 到 Python 的 隔离 环境 中 ， 命 令 行 终端 的 最 前 端 会 出 现 “tensorflow” 
的 字样 。 下 面 介绍 Hello world 的 执行 代码 。 








ftf 

import tensorflow as tf 

hello = tf.constant('Hello world!') 
sess = tf.Session() 


print (sess.run (hello) ) 





constant 是 TensorFlow 的 一 种 数组 ， 这 里 就 不 详细 介绍 了 。 下 面 主要 来 说 一 下 Session 
的 概念 ，Session 表示 会 话 的 概念 ， 在 TensorFlow 系统 中 ， 用 户 通 过 会 话 来 与 TensorFlow 
系统 交互 。 一 般 的 模式 是 先 建立 会 话 ， 然 后 在 会 话 中 评 加 和 点 和 边 ， 再 通过 Session 来 与 
TensorFlow 交互 。 执 行 上 面 的 这 个 代码 文件 ， 束 会 看 到 返回 的 结 采 ， 如 图 7-25 所 示 。 


| (tensorflow) osx10111-e0accb813994:bin garvin$ python /Users/garvin/tensorflow/ 
liproject/tf.py 
Hello, TensorF low! 
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综 上 ， 一 个 单机 版 的 TensorFlow WE AZERA, FHM y Hello World 实验 。 


3. 手 与 字 图 片 识 别 实验 

前 面 介 绍 了 TensorFlow 的 环境 配置 ， 下 面 结合 TensorFlow 官网 上 提供 的 案例 ， 介 绍 
一 下 如 何 搭建 手写 字 图 片 识别 的 实验 。 什么 是 手写 字 图 片 识别 呢 ” 即 通过 一 些 打 标的 手写 
字 图 片 进 行 训练 ， 生 成 模型 ， 通 过 模型 识别 其 他 没有 打 标 的 图 片 中 的 数字 。 我 们 分 几 步 来 
介绍 整个 实验 的 搭建 ， 实 验 坏 境 为 Mac OS. 


C1) 数据 源 。 抑 来 看 一 下 我 们 的 数据 产 ， 数 据 源 是 MNIST 的 一 份 数 据 库 ， 地 址 为 


http://yann.lecun.com/ exdb/mnist/。 
在 数据 库 中 有 打 标 的 训练 数据 图 片 ， 这 些 图 户 十 通过 二 进 制 编 介 压缩 过 的 ,训练 样本 


一 共 6 万 个 左右 。 因 为 是 通过 二 进 制 压缩 米 保 存 的 图 片 ， 不 够 直观 ,我们 可 以 通过 一 段 程 
序 来 还 原 这 些 图 片 。 该 程序 依赖 于 pilow， 可 以 多 进行 安 丢 ， 命 令 如 下 。 












































sudo pip install pillow 


然后 在 解压 的 二 进 制 图 斤 路 径 下 运行 如 下 代码 ， 束 可 以 还 原 图 片 。 








from PIL import Image 


import struct 


def read image (filename): 
f = open(filename, 'rb') 
index = 0 
buf = f.read() 
f.close() 
magic, images, rows, columns = struct.unpack from('>IIII' , buf , index) 
index += struct.calcsize('>IIII') 
for i in xrange (images): 
image = Image.new('L', (columns, rows)) 
for x in xrange (rows): 
for y in xrange (columns): 
image.putpixel((y, x), int (struct.unpack from('>B', buf, index) [0] ) ) 
index += struct.calcsize('>B') 


print 'save ' + str(i) + 'image' 
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image.save( str(i) + '.png') 
det read label (ra lenanie;, sSavekilename): 
f = open(filename, 'rb') 
index = 0 
buf = f.read() 
f.close() 
magic, labels = struct.unpack from('>II' , buf , index) 


index += struct.calcsize('>II') 


labelArr = [0] * labels 

for x in xrange (labels): 
labelArr[x] = int (struct.unpack from('>B', buf, index) [0]) 
index += struct.calcsize('>B') 

save = open(saveFilename, 'w') 

save.write(','.join(map(lambda x: str(x), labelArr))) 

save.write('\n') 

save.close () 

print 'save labels success' 

if name == ' main 4 
read image('train-images-idx3-ubyte') # 图 片 文件 路 径 


read label('train-labels-idxl-ubyte', 'label.txt') #label 路 径 











训练 集 的 图 片 如 图 7-26 所 示 ， 全 部 是 黑 底 白字 的 ， 大 小 为 28 ff 

A x28 像素 的 手写 体 数字 ， 数 字 分 0~9 共 10 种 。 
通过 第 6 章 的 学 习 , 我 们 知道 机 器 学 习 是 针对 矩阵 数据 的 统计 算 

法 ， 需 要 把 图 片 转换 成 向 量 表示 。 可 以 通过 把 图 片 映 射 成 符 阵 的 形式 来 进行 图 片 的 量化 ， 

因为 图 片 是 二 维 的 ，28 RA x 28 像素 的 图 片 可 以 映射 成 28 x 28 WHERE, SOS 7-27 所 示 。 
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根据 图 片 的 亮度 等 属性 可 以 给 每 个 小 像素 点 一 个 数值 表示 。 我 们 把 28x28 的 矩阵 展 
F, WER T KEE 28 x 28=784 的 一 个 向 量 。 训 练 集 一 共 6 SKA ATE, WER 
了 一 个 60000 x 784 这 样 的 矩阵 。 因 为 训练 样本 由 0 ~ 9 的 数字 构成 , 存在 10 种 可 能 ， 可 以 
通过 长 度 是 10 的 向 量 表示 。 比 如 图 片 表 示 的 数字 是 5， 就 表示 成 (0,0,0,0,0,1,0,0,0,0, ) ( 从 
左 数 第 6 个 字段 为 1, 因为 计数 是 从 0 开始 )，3 就 表示 成 (0,0,0,1,0,0,0,0,0,0 ), 在 向 量 中 每 
个 位 置 代 表 一 个 数字 。 目 标 队列 对 应 的 60000 个 样本 展开 ,就 是 60000 x 10 的 和 矩阵。 以 上 ， 
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我 们 通过 图 片 的 量化 ， 训 练 数 据 已 经 变 成 了 可 供 算法 计算 的 和 矩阵。 特征 列 是 60000 x 784 
HJAREE, EbbRA EU FN NS 60000 x 10 的 矩阵 。 
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7-27 图 片 量 化 
( 2) Softmax。 通过 前 面 的 数据 产 奔 解 , 我 们 看 到 了 手写 字 识 别 已 经 抽 宵 成 一 个 有 监督 


的 多 分 类 问题 。 在 算法 章节 (第 5 音 ) 介绍 过 二 分 类 的 逻辑 回归 ， 这 里 介绍 一 个 多 分 类 算 
法 一 一 Softmax， 通 过 Softmax 算法 可 以 解决 10 分 类 问题 。 




















根据 监督 学 习 的 特性 ， 在 这 个 场景 下 可 以 得 到 图 7-28 所 示 的 滤 阵 计算 公式 。 


特征 矩阵 
60000x784 X 784x10 





7-28 ”和 矩阵 计算 公式 
也 束 是 说 ,我 们 只 要 求 得 图 中 的 矩阵 W 和 剃 量 b， 就 可 以 搭建 算法 模型 。 


把 场景 抽象 成 这 样 的 一 个 公式 : YsWXeb. Hah, Y 是 目标 矩阵 ,XX 是 特征 矩阵 ， 
宵 是 再 要 计算 的 特征 权重 怎 阵 ,， bE AA. RINE AE) T OY AX WE, RER 
f$ W 和 bb 的 值 束 可 以 了 ,如 图 7-29 所 示 。 这 束 有 扣 像 之 前 介绍 的 风 辑 回归 最 优化 问题 ， 
当时 是 使 用 杨 度 下 降 算 法 来 解 的 ， 在 Softmax 中 也 采用 类 似 的 方法 ， 只 不 过 Softmax z 
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7-29 Softmax 


(3) 代码 实现 。 现 在 来 介绍 具体 代码 的 实现 ， 首 先 需 要 训练 模型 ， 并且 把 模型 存储 下 
来 ， 以 备 未 来 预测 的 时 候 使 用 ， 训 练 醒 型 的 代码 如 下 。 





import tensorflow as tf 


from tensorflow.examples.tutorials.mnist import input data 


#import data 


mnist = input data.read data sets("MNIST data/", one hot-True) 


f Create the model 
x — tf.placeholder(tf.float32, [None, 784]) 
W — tf.Variable(tf.zeros([784, 10])) 


b = tf.Variable(tf.zeros([10])) 





y = tf.nn.softmax(tf.matmul (x, W) + b) 


# Define loss and optimizer 
y. = tf.placeholder (tf.float32, [None, 10] ) 
cross entropy = -tf.reduce sum (y *tf.log(y)) 


train step = tf.traim. GradientpescentOptimizer (0.01) «minimize (Cross entropy) 


init op = tf.initialize all variables () 


Saver = tf.train.Saver() 


# Train the model and save the model to disk as a model.ckpt file 


# file is stored in the same directory as this Python script is started 


with tf.Session() as sess: 
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sessorun(inrit op) 
for i in range(50000): 
batch xs, batch ys = mnist.train.next batch (1) 


sess.run (train step, feed dict={x: batch xs, y : batch ys}) 


save path = saver.save (sess, "modell.ckpt") 


print ("Model saved in file: ", save path) 


这 段 代 但 会 目 动 到 MNIST 上 和 耐 去 下 载 训练 集 ， 训 练 完成 后 会 在 代 介 目录 下 生成 
modell.ckpt 这 杆 一 个 模型 文件 ,我 们 可 以 通过 这 个 模型 文件 进行 预测 。 
下 耐 找 一 张 图 记 作 为 预测 集 ， 图 厂 最 好 是 28 像素 x28 RRN, 


而 且 背 景 和 字 的 颜色 最 好 有 明显 区 分 。 这 里 使 用 图 7-30 所 示 的 图 片 作 — 图 7-30 预测 入 
为 预测 集 。 
































在 预测 过 程 中 ， 首 先 需 要 用 代码 把 图 三 处 理 成 可 以 被 算法 预测 的 格式 ， 代 人 码 如 下 。 


def imageprepare (argv): 
This function returns the pixel values. 
The imput is a png file location. 
im = Image.open(argv).convert('L') 
width = float(im.size[0]) 
height = float(im.size[1]) 


newlmage = Image.new('L', (28, 28), (255)) #creates white canvas of 28x28 pixels 


if width > height: #check which dimension is bigger 
Width is bigger. Width becomes 20 pixels. 
nheight = int(round((20.0/width*height),0)) #resize height accordi 
ng to ratio width 
if (nheigth == 0): #rare case but minimum is 1 pixel 
nheigth = 1 
# resize and sharpen 
img = im.resize((20,nheight), Image.ANTIALIAS) . filter (ImageFilter.SHARPEN) 


wtop = int (round(((28 - nheight)/2),0)) #caculate horizontal pozition 
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newlImage.paste(img, (4, wtop)) #paste resized image on white canvas 
else: 
#Height is bigger. Heigth becomes 20 pixels. 
nwidth = int(round((20.0/height*width),0)) #resize width according 
to ratio height 
if (nwidth == 0): #rare case but minimum is 1 pixel 
nwidth = 1 
# resize and sharpen 
img = im.resize((nwidth,20), Image.ANTIALIAS).filter(ImageFilter.SHARPEN) 
wleft = int(round(((28 - nwidth)/2),0)) #caculate vertical pozition 


newlmage.paste(img, (wleft, 4)) #paste resized image on white canvas 


#newlmage.save ("Sample.png") 


tv = list (newImage.getdata()) #get pixel values 


#normalize pixels to 0 and 1. 0 is pure white, 1 is pure black. 
tva = [ (255-3) 412072955 <0) for x in tv] 


return tva 


这 里 输入 的 参数 是 图 户 的 地 址 ， 图 户 需 要 用 png 格式 存储 。 
接 下 来 就 是 预测 了 ， 导 入 训练 好 的 模型 modell.ckpt 以 及 图 片 转换 程序 的 输出 结果 。 




















def predictint (imvalue): 
This function returns the predicted integer. 


The imput is the pixel values from the imageprepare() function. 


# Define the model (same as when creating the model file) 
x = tf.placeholder(tf.float32, [None, 784]) 
W = tf.Variable(tf.zeros([784, 10])) 


b = tf.Variable(tf.zeros([10])) 





y = tf.nn.softmax(tf.matmul(x, W) + b) 


init op = tf.initialize all variables () 
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saver = tf.train.Saver() 

with tf.Session() as sess: 
sess.run(init op) 
saver.restore (sess, "modell.ckpt") 


#print ("Model restored.") 


prediction-tf.argmax(y,l) 


return predictrion.eval(reed dict={x: [imvalue]], sessLon=sess) 





输入 参数 是 前 面 图 户 转 换代 码 的 返回 值 ,注意 议 普 预测 模型 的 地 址 。 通 过 在 Tensorflow 
环境 下 执行 这 段 代 但 ， 结 末 可 以 通过 命令 行 终 疹 打印 出 来 ， 如 图 7-31 Aran. 


(tensorflow) osx10111-e0accb813994:bin garvin$ python /Users/garvin/Documents/w 
ork/book/code/tf/predict.py 
8 


7-31 4 


通过 上 而 的 案例 介绍 , RAE SE Ete, PUTAS TensorFlow 环境 一 训练 
FEMA FO MARAE IA, 成功 把 写 有 数字 8 的 图 斤 中 的 数字 识别 了 出 来 。 需 
要 注意 的 是 ,本 各 例 只 是 最 基础 的 模型 训练 方法 ,通过 TensorFlow 可 以 做 非常 复杂 的 模型 ， 
如 采 和 需要 在 精度 上 做 突破 ， 则 需要 掌握 深 上 度 学 习 的 一 些 算 法 身 参 的 方法 。 为 外 ， 因 为 模 
型 训练 需要 依赖 大 规模 的 训练 数据 ， 本 文 只 使 用 了 MNIST 的 基础 的 样本 集 ， 如 有 果 是 干 万 
级 别 的 图 厂 训 练 ， 在 复杂 算法 情况 下 可 能 要 依赖 于 分 布 式 计算 来 处 理 。 所 以 如 有 雪 在 工业 罕 
想 洲 地 图 户 中 印刷 文字 识别 (OCR ) 或 者 古 其 他 深度 学 习 的 训练 ， 需要 掌握 的 不 让 是 算法 
层面 的 东西 ， 对 分 布 式 淋 构 也 需要 有 一 定 的 了 解 才 可 以 。 










































































4. 小 结 


通过 本 市 的 介绍 , 我 们 了 解 了 TensorFlow 的 特性 、 单 机 环境 搭建 以 及 手写 图 户 识 别 实 
验 的 训练 流程 ， 整 个 TensorFlow 的 实验 流程 还 是 相对 比较 顺畅 的 。 另 外 ， 在 算法 层面 上 ， 
虽然 TensorFlow 只 开 产 了 一 年 , 但 是 已 经 涵盖 了 很 多 算法 组 件 , 特别 是 次 度 学 习 的 算法 组 
件 ,， 相 对 其 他 机 融 学 习 工 具 来 讲 ，TensorFlow 的 算法 更 为 丰富 。 通 过 TensorFlow 的 官网 了 
解 到 ， 目 前 TensorFlow 已 经 支持 了 DNN, RNN 和 CNN 这 几 种 的 深度 学 习 模 型 结构 ， 而 
且 对 逻辑 回归 这 样 的 线 层 机 顺 学 习 方 法 也 已 经 文 持 卫 。 作 为 一 个 开源 的 算法 平台 ， 目 前 
TensorFlow 还 处 于 要 儿 时 期 ， 相 信 未 来 随 着 社区 的 不 断 壮 大 ，TensorFlow 4:1: Spark MLib 
那样 闻 盖 越 来 越 多 的 算法 ,而 且 一 定 会 和 生出 越 来 越 丰富 的 开发 者 工具 供 数 据 挖掘 工程 师 
使 用 。 有 再 补充 一 点 ， 目 前 TensorFlow 的 官网 已 经 有 了 比较 丰富 的 实例 可 供 学 习 和 参考 ， 只 
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要 理解 了 其 流 图 形式 的 数据 流转 ， 在 TensorFlow 染 构 中 目 己 开发 一 侠 算 法 的 难 肛 也 并 不 
KR, SNIN TensorFlow 对 Python 的 文 持 ，TensorFlow 会 是 一 蒜 个 错 的 数据 挖 据 工 具 。 
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前 面 介 绍 的 分 别 是 单机 版 的 机 融 学 习 工 具 和 开源 的 分 布 式 机 带 学 习 工 具 , 虽然 这 些 工 
具 大 多 都 具备 友好 的 操作 方式 和 丰富 的 算法 ， 但 是 在 企业 级 服务 方面 还 古 存 在 一 些 缺 陷 ， 
这 种 缺陷 主要 体现 在 以 下 几 个 方面 。 


(1) 性 能 因素 。 先 来 介绍 数据 量 的 问题 ， 目 前 比较 大 的 一 些 数 据 生 产 网 站 ， 如 Facebook 
和 淘宝 等 ， 每 天 产生 的 数据 量 是 PB 级 别 的 。 单 机 版 的 工具 处 理 数据 量 的 极限 通 第 只 
^H GB 级 列 。 对 开源 的 机 豆 学 习 平台 解决 方案 ， 如 在 集群 上 搭 Tensorflow 或 者 Spark, 通过 
增加 机 器 的 方式 可 以 达到 很 好 的 性 能 ， 而 且 确 实 也 有 很 多 大 规模 的 互联 网 公司 是 这 么 做 
的 。 但 是 因为 分 布 式 集群 的 调 优 和 运 维 等 工作 会 消耗 大 量 的 人 力 及 物力 ， 所 以 中 小 型 公司 
不 一 定 有 足够 的 资源 或 是 技术 能 力 来 搭建 这 样 的 集群 。 试 想 一 下 ， 如 果 为 了 跑 一 个 大 的 逻 
辑 回 归 模 型 ,需要 搭建 几 百 台 机 器 这 样 的 集群 ， 需 要 有 一 整套 运 维 的 代码 ， 需 要 有 回归 测 
试 的 机 器 , 需要 调 优 …… 这 些 问题 如 果 使 用 AWS ML 或 者 阿里 云 机 器 学 习 PAI 这 样 的 企业 
级 机 器 学 习 服 务 就 可 以 避免 了 ,而 且 大 公司 的 云 服 务 平台 也 更 加 稳定 ， 在 目前 快速 和 代 更 
新 的 互联 网 时 代 ， 谁 都 承受 不 了 自己 集群 服务 出 现 哪怕 一 分 钟 的 故障 。 


(2) 算法 与 计算 的 解 炎 。 计 算 机 程序 的 设计 理念 是 不 同 的 功能 尽 可 能 解 粮 、 模 块 化 ， 
这 一 点 也 同样 适用 于 云 计 算 的 不 同 工 程 角色 之 间 。 如 琳 措 建 了 一 球 开 着 的 分 布 式 系统 ， 而 
日 聘用 了 算法 工程 师 ， 其 实 工 程 师 在 做 算法 应 用 的 时 候 是 要 分 心 考虑 分 布 式 计算 淋 构 的 ， 
这 束 古 算法 和 计算 引 黎 没有 完全 解 厢 造成 的 局 面 。 笔者 认为 最 好 的 人 员 染 构 体 系 应 该 古 分 
布 式 染 构 工程 师 只 关心 计算 染 构 的 东西 , 算法 工程 师 只 关心 算法 调 优 和 模型 训练 这 样 算 法 
层面 的 东西 。 算 法 与 计算 的 解 耘 可 以 让 工程 师 们 放手 云 做 目 己 更 擅长 的 东西 ， 从 而 解放 生 
产 力 。 这 也 是 使 用 企业 级 的 机 硕 学 习 服 务 的 好 处 。 

(3) 上 下 游 体 系 。 企 业 级 的 数据 挖 据 流程 与 学 校 的 实验 是 不 同 的 。 在 学 校 里 跑 一 个 算 
法 ， 男 一 幅 展 示 图 、 证 明 一 个 公 却 可 能 瓯 够 了 ， 但 是 在 企业 级 的 机 带 学 习 应 用 中 ， 一 定 需 
要 的 是 算法 模型 反哺 目 号 的 业务 。 交 有 一 个 算法 工具 包 古 不 够 的 ， 在 企业 级 服务 中 ,我们 






















































































































































































Ne Aig H xS BIA, TPERONWWUSC EZ REI ASTRA. KAY Ris 
ANGE E MIRRE, MOR AN eee AV. TEAR TUN API 服务 等 。 用 
AWS 和 阿里 云 的 好 处 就 是 可 以 省 去 自己 搭建 调度 服务 、 在 线 预 测 服 务 这 样 的 工作 , 在 平台 
上 进行 实验 , 然后 一 键 部 普 束 会 玫 我 们 把 上 下 游 的 天 系 链 路 打通 ,直接 拿 看 生成 的 API HX 
入 目 己 的 业务 逻辑 惑 可 以 了 。 接 下 来 详细 介绍 亚马逊 机 带 学 习 平 台 和 阿里 云 机 带 学 习 平台 
PAI. 

















7.4.1 ph AWS ML 


1. 简介 

Amazon Web Service ( AWS ) 是 亚马逊 在 2006 “EEN TURKS, FENDER 
以 根据 业务 发 展 来 扩展 的 较 低 可 变 成 本 来 符 代 前 期 资本 基础 设施 费用 。 AH ihe FEY 
数据 ，AWS 已 经 为 全 球 190 个 国家 和 地 区 的 企业 提供 支持 。AWS 目前 是 云 计算 行业 的 领 
军 者 ， 曾 经 击败 过 IBM 获得 美国 中 情 局 的 云 服 务 大 额 订单 。 亚 马 逊 机 需 学 习 (Amazon 
Machine Learning ), 是 2015 年 4 月 份 推出 的 一 款 能 够 帮助 开发 者 使 用 历史 数据 开发 并 部 蓝 
预测 模型 的 服务 。 这 些 模 型 有 广泛 的 用 途 ， 包 括 对 欺诈 行为 的 检测 、 防 止 用 户 流 失 并 改进 
用 户 文 持 。 亚 马 逊 机 需 学 习 是 通过 向 导 的 方式 为 开发 者 提供 关于 机 器 学 习 模 型 的 创建 和 调 
试 流程 的 指导 ， 从 而 部 普 并 扩展 模型 ,支持 数 十 亿 级 别 数据 量 的 预测 。 


亚马逊 通过 疝 导 的 方式 建立 实验 ， 并 且 把 机 融 学 习 服务 和 Amazon Simple Storage 
Service ( Amazon S3 )、Amazon Redshift, Amazon Relational Database Service ( Amazon RDS ) 


集成 ， 让 客户 使 用 存储 在 AWS 云 服务 上 的 数据 ， 做 到 整个 云 服 务 的 生态 打通 。 
















































































2. 机 器 学 习 实 验 


(1) 账号 注册 。 首 先 要 申请 AWS kS, AWS 对 每 个 应 用 都 一 定 的 免费 额度 可 用 来 
试用 。 本 书 的 实验 需要 开通 Amazon Machine Learning 和 Amazon Simple Storage Service W 
个 产品 ， 分 别 是 计算 和 存储 的 模块 。 




















用 户 通 过 网 址 http://docs.aws.amazon.com/AmazonS3/latest/gsg/SigningUpforS3.html 可 
以 开通 。 


(2) AWS S3 DIEE- Amazon S3 是 一 种 面向 Internet 的 存储 服务 。 访 服务 下 在 让 开 
发 人 员 能 更 轻松 地 进行 互联 网 规模 计算 。Amazon S3 提供 一 个 简单 的 Web 服务 界面 , 用户 














192 | 第 7 章 
常见 机 器 学 习 工 具 介 绍 


可 通过 它 随时 在 Web 上 的 任何 位 置 存 储 和 检索 任 一 大 小 的 数据 。 此 服务 让 所 有 开发 人 员 都 
能 访问 与 亚马逊 网 站 一 致 的 高 扩展 性 、 局 可靠 性 、 高 安全 性 和 快速 价 廉 的 存储 设施 。 进 入 
Amazon S3， 我 们 可 以 看 到 AWS 是 通过 存储 桶 (Bucket) 作为 存储 单元 。 数 据 的 恋 写 、 删 
除 等 工作 是 通过 对 象 及 进行 的 ， 每 个 对 象 会 分 配 到 唯一 的 存储 棚 中 。 对 象 不 区 分 和 是否 是 结 
构 化 数据 、 图 卢 或 txt, 任意 格式 的 数据 都 可 以 存储 。 创建 存储 桶 之 后 , 需要 把 用 于 机 休学 
习 训 练 的 数据 提交 到 数据 桶 的 一 个 存储 对 家 当中 ， 如 图 7-32 所 示 。 


| Ch 按照 前 级 搜索 






































| 上 传 - 选择 文件 和 文件 过 


tE: 所 有 存储 桶 / garvintest 


yy (每 个 文件 太 小 最 大 为 5 TB) 至 Amazon S3, AETA. 您 也 可 以 拖 旅 交 件 和 文件 夹 至 以 下 区 域 。 要 删除 已 选择 的 交 忻 ， 请 单 击 文件 名 称 最 
JH 四 


as SCE EE ES CAE Efe. 


没有 添加 文件 .…. 


O kitt Qmm 
TRO - BESO 


设置 详细 信息 > | 开始 上 传 HUM 





7-32 上 传 数据 
因为 AWS FINA Lae A cde CSV 文件 的 预 则 ， 所 以 我 们 需要 提供 一 份 CSV 格式 的 数据 。 


(3) AWS ML。 把 CSV 数据 存在 AWS S3 中 之 后 ， 束 可 以 到 AWS 的 机 怖 学 习 产 品 页 进 
行 训练 了 ， 首 先是 配置 数据 源 ， 把 $3 中 的 数据 源 配 置 好 ， 如 果 格 式 符合 要 求 ，AWS 会 做 
一 次 目 动 Schema 匹配 ( 上 传 数 据 与 目 建 数据 表 的 字段 匹配 ) 的 工作 ， 如 图 7-33 所 示 。 


把 数据 源 导 入 之 后 ， 需 要 进行 Schema 的 配置 ，AWS 提供 可 视 化 的 数据 操作 ， 用 户 可 
以 通过 如 图 7-34 所 示 的 工具 来 配置 。 


AWS 的 机 器 学 习 工 具 可 以 识别 每 个 字段 名 还 有 这 个 字段 的 数据 类 型 ， 包含 Binary, 
Categorical, Numeric 和 Text k 4 种 数据 类 型 。 目 前 ，AWS 的 机 器 学 习 工 具 只 支持 有 监督 
的 二 分 类 计算 这 样 一 个 场景 , 所 以 需要 在 配置 Schema 这 一 步 设置 一 下 Target, Target 的 就 
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EHP, 具体 的 算法 原理 可 以 参考 逻辑 回归 算法 (第 5 草 ) 介绍 。 


S3 data access 


Tell Amazon ML how to access your data and give it permission to access it. 


S3 location * 


s3:// | garvintest/winequality-red.csv 


Enter the path to a single file or folder in Amazon S3. You need to grant Amazon ML permission to read this data. Learn more. 


If you already have a schema for this data, provide it in a file at &3://«path-at-input-data-.schema. If you don't have a schema, 
Amazon ML will help you create one on the next page. eo 


Datasource name winequality 


The validation is successful. To go to the next step, choose Continue 


Datasource name winequality 
Data location s3://garvintest/winequality-red.csv 
Data format CSV 
Schema source Auto generated 
Number of files 1 
Total size 82.2 KB 








* Required 
" Cancel Continua 


7-33 配置 数据 源 


Amazon ML scanned your input data and inferred the column names and data type for each of the columns in your dataset. Review and edit the data type for each column to ensure that it accurately represents the data. This 
enables Amazon ML to read the input data correctly and to produce accurate predictions. Learn more. 


Does the first line in your CSV contain the column names? ©@ Yes No O 
ACTION: Change type ~ 


Q Items per page: 10 - 1-100f21> » 
w Name : Data type - Sample field value 1 Sample field value 2 Sample field value 3 

age Numeric ~ 53 28 

job Categorical ~ technician management 

marital Categorical ~ married single married 


education Categorical ~ unknown university.degree high.school 


default Categorical ~ 


housing Categorical ~ 

loan Categorical ~ 

contact Categorical ~ cellular cellular 
month Categorical ~ jun 


day_of_week Categorical ~ fr thu 
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前 面 配 置 好 算法 的 数据 源 后 ， 下 面 就 是 预测 模型 的 训练 工作 。 这 里 有 一 个 步骤 是 模型 
拆 分 , 默认 的 方案 是 70% 的 数据 用 来 训练 , 38] P 30% 的 数据 用 来 评估 模型 效果 。 设置 页 面 ， 
如 图 7-35 所 示 。 
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1.Input data 2. ML model settings 


ML model settings 


You can use the automatically suggested ML model settings, or you can choose to customize. 


ML model type BINARY @ 
ML model target 


ML model name ML model: banking 
(Optional) 


Select training and Recipes and training parameters control the ML model training process. You can select these settings for your 
ML model or use the defaults provided by Amazon ML. In either case, you can choose to have Amazon ML 
evaluation settings : : A 
reserve a portion of the input data for evaluation. Learn more. 


© Default (Recommended) Custom 
* Generate a default recipe * Modify the recipe Amazon ML generates 


* Use default training parameters * Modify training parameters 

* Set aside 3096 of your training data to * Randomly or sequentially split your 
evaluate the training evaluation data @ 

* Split the evaluation data sequentially € 


Evaluation Name Evaluation: ML model: banking 


Cancel Previous 
练 配置 








7-35 menu 








配置 好 模型 训练 的 参数 后 就 可 以 开始 模型 训练 了 ， 模 型 的 训练 结 来 页 如 图 7-36 所 示 ， 


结果 分 为 4 个 模块 展示 ,分 别 是 ML model summary , Datasource , Evaluations 和 Predictions, 
下 面 分 别 介绍 这 4 个 模块 。 


ML model summary 


ID mi-VtOB5Vd7Nu2 
Name ML model: banking # 
Type Binary classification 
Creation time Sep 30, 2016 4:03:01 PM 
Completion time 2 mins. @ 
Compute Time (Approximate) 2 mins. € 
Status Completed 
Log Download log 


Datasource (training) 


Datasource ID ds-4PJjnOYhEnn 
Target y 


Input schema View input schema 
Evaluations 


Evaluations created 1 
Latest evaluation result 0.936 (AUC) 
Perform another Evaluation 


Predictions 


CloudWatch metrics ( View in Cloud Watch 
Score threshold 0.5 


A single dataset 
Generate one-time predictions for a single dataset. 


Generate batch predictions 


Try real-time predictions 
Generate real-time predictions in your browser. 


Try real-time predictions 


Enable real-time predictions 
To enable real-time predictions now, create a real-time prediction endpoint. 


Create endpoint 


练 结果 








7-36 模型 训 


14 企业 级 云 机 器 学 习 工 具 


e ML model summary， 主 要 展示 模型 训练 的 一 些 基本 指标 ， 如 时 长 等 因 系 。 通 过 查 
看 日 志 , 如 图 7-37 所 示 , 可 以 看 一 下 每 一 次 算法 迭代 计算 结 来 , 包括 accuracy, recall 
和 位 -score 等 这 些 关 键 因素 。 














08:08:11 : Begin training. 

08:08:22 : initial-training: 11-20.0 12-1.0E-6 likelihood-function=logreg max-passes=10 max-model-size=104857600 (100.00 MB) readable=false 
08:08:23 : learner-id-1050 model-configuration: learning-rate=0.01 

08:08:23 : learner-id=1050 model-convergence: negative-log-likelihood=1.000000e+00 (delta=1.000000e+00) is-converged-no 
08:08:23 : learner-id=1050 active-features: updates=0000000000 min=0000000 max=0000000 mean=0000000 total-sum=0000000000 
08:08:23 : learner-id-1050 active-features-quantiles: quantile-10=0000000 quantile-50=0000000 quantile-90=0000000 

08:08:23 : learner-id=1050 model-status: model-size=0 (0.00 MB) #params=0 #pruning-calls=0000000000 

08:08:23 

08:08:23 : learner-id=2101 model-configuration: learning-rate=0.1 

08:08:23 : learner-id=2101 model-convergence: negative-log-likelihood=1.000000e+00 (delta=1.000000e+00) is-converged=no 
08:08:23 : learner-id-2101 active-features: updates=0000000000 min=0000000 max=0000000 mean=0000000 total-sum-0000000000 
08:08:23 FO: learner-id=2101 active-features-quantiles: quantile-10=0000000 quantile-50=0000000 quantile-90=0000000 

08:08:23 FO: learner-id=2101 model-status: model-size=0 (0.00 MB) #params=0 #pruning-calls=0000000000 

08:08:23 

08:08:23 : learner-id=3535 model-configuration: learning-rate=1.0 

08:08:23 : learner-id=3535 model-convergence: negative-log-likelihood=1.000000e+00 (delta=1.000000e+00) is-converged=no 
08:08:23 : learner-id=3535 active-features: updates=0000000000 min=0000000 max=0000000 mean=0000000 total-sum=0000000000 
08:08:23 : learner-id=3535 active-features-quantiles: quantile-10=0000000 quantile-50=0000000 quantile-90=0000000 

08:08:23 : learner-id=3535 model-status: model-size=0 (0.00 MB) #params=0 #pruning-calls=0000000000 
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e Datasource, A% Schema 等 信息 ， 跟 前 面 的 Schema 介绍 类 似 。 


e Evaluation ， 对 模型 的 评 佑 模块 ， 单 击 进去 出 现 如 图 7-38 Aro IAL} 


ML model performance 





is chart shows the distributions of your predicted answers for the actual "1" and "0" records in your evaluation data. Any overlap of the actual "1" & "0" — is where your ML model guesses wrong. Learn more. 
Adjust the slider to indicate how much error you can tolerate from your ML model based on your needs. Moving the score threshold to the right decreases the number of false positives and increases the number of false 
negatives. 
Explain this chart 


Trade-off based on score threshold 0: Reset score threshold (0.5) 


91% are correct 
585 true positive 
ee 10,675 true negative 
irgwurcwu Whos coe 9% are errors 
317 false positive 
778 false negative 


"TERR 


796 of the records are predicted as "1" 
9396 of the records are predicted as "0" 


Save score threshold at 0.50 


** Advanced metrics 


False positive rate 0.0288 
Precision 0.6486 

Recall 0.4292 

Accuracy 0.9114 





7-38 ”模型 评估 





通过 模型 评估 可 以 观测 False positive rate, Precision 和 Recall, Accuracy iX) L2 , 
halten 通过 一 个 ROC HAAR EDUUDA AT RAR, SAR AAR te P VA eo ER 
> phe 0.56 


e Predictions， 这 个 模块 有 以 下 3 个 按钮 。 











Generate batch predictions: 离线 训练 功能 ， 可 以 通过 生成 的 预测 模型 对 AWS S3 中 存 
储 的 其 他 数据 源 进 行 预测 。 


Real-time predictions: 实时 预测 的 测试 ， 融 是 把 实验 生成 的 模型 生成 在 线 服 务 API, 
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- 








然后 把 这 个 API 做 了 前 端的 封装 ， 如 图 7-39 所 示 。 


Try real-time predictions 
Try generating real-time predictions for free using the web browser on this page. To request a real-time prediction, complete the following form or 
provide a single data record in CSV format. To provide a data record, choose the Paste a record button. | Paste a record 


Q Items per page: 10 - 1-10 0f21°” 
Name Type Value 

age Numeric 

job Categorical 

marital Categorical 

education Categorical 

default Categorical 

housing Categorical 

loan Categorical 


1 
2 
3 
4 
5 
6 
7 
8 
9 


contact Categorical 
month Categorical 


=à 
o 


day of week Categorical 
1-100f21'" 


cioar cata IEEE 





7-39 预测 API 


Create endpoint: 生成 实验 模型 的 在 线 预测 API, 用 户 可 以 调用 这 个 API 进行 实时 的 预测 。 





小 结 


本 帮主 要 介绍 了 AWS ML 的 一 些 背 景 知识 以 及 功能 , 利用 AWS S3 和 AWS ML 配合 搭 
建 了 一 套 二 分 类 场景 的 实验 。 通 过 实验 可 以 看 出 来 亚马逊 机 融 学 习 的 几 点 特性 。 第 一 是 整 
个 流程 的 操作 简便 ， 通 过 向 导 模 式 指 导 用 户 一 步 一 步 地 进行 实验 的 搭建 ， 包 括 数据 产 的 配 
Fi. Schema 的 设置 、 预 测 模型 的 设置 和 结果 的 查询 。 如 果 其 中 一 步 没 有 设置 正确 ， 惑 无 
法 进行 下 一 步 的 操作 ， 确 保 了 整个 流程 的 连贯 ， 而 且 对 问题 的 排查 也 比较 容易 。 第 二 是 可 
视 化 操作 体验 ， 所 有 功能 都 可 以 通过 音 击 按钮 来 实现 ， 对 初学 者 来 讲 十 分 方便 。 


AWS ML 的 短 板 也 比较 明显 ， 了 最 大 的 问题 是 算法 过 于 单一 ， 只 文 持 一 个 逻辑 回归 二 分 
类 场景 算法 是 远 远 不 够 的 ， 而 且 也 没有 提供 算 读 调 参 的 选项 。 第 二 个 束 是 自由 度 不 高 ， 因 
为 是 向 导 式 的 操作 方法 ,每 一 步 都 需要 严格 按照 规定 的 方案 去 做 ， a anne 
脚本 或 者 SQL 语句 来 日 定义 逻辑 。 基 于 以 上 问题 如果 是 业务 逻辑 比较 蛙 一 , 通过 二 分 类 
束 可 以 解决 而 且 不 打算 对 算法 的 研究 投入 过 多 精力 的 话 , 无 论 在 向 导 式 的 流 Mee ma Evi 
jfi, AWS ML © — DARE (AERIALS AY, WNRR, AA, KAT 
析 这 些 场 景 ，AWS ML HRWIBJZJBE NUS TAE o 
















































































7.4.2 BH zb PAI 
MATE T IE SAN SRS AWS ML, KIRNA ak IA EL BU Ee Beak 





PN Lace lea, KARR AWS PALL 


1. 人 简介 








MEHLE] PAI Ee — a) Liz SAAS Lt E 2] GRUB U E 217 fs 阿里 
云 机 带 学 习 的 撒 层 计算 引擎 是 阿里 云 研 帮 的 飞天 分 布 式 计算 引擎 ， 可 以 处 理 EB 级 别 的 数 
据 。 瘟 法 平台 本 刁 字 兰 了 从 数据 预 处 理 、 特 征 工 程 、 机 带 学 习 算 法 、 模 型 评估 、 预 调和 部 























蓝 一 整套 的 机 带 学 习 算 法 解决 方案 ， 因 为 打通 了 整 条 数据 挖掘 的 链 路 ， 使 得 阿里 云 机 融 学 





习 可 以 不 单 作为 一 于 科学 研究 的 工具 ， 也 可 以 作为 企业 级 的 算法 解决 万 案 来 使 用 。 
Pe CK TE Bika REAR, UME 7-40 所 示 。 


E 信用 评估 O 金融 风 控 疾病 预测 HO 图片 分 类 


AU a8 Et aR E 


新 闻 分 类 i5 FAM Co 路 线 规划 Yd 推荐 系统 


预测 和 评估 











n) 数理 统计 数据 预 处 理 De 特征 工程 S 机 器 学 习 算 法 








[T| 文本 分 析 Jdo 关系 网 络 分 析 (&) 深度 学 习 框架 ( Tensorflow 和 MXNet 等 ) 模型 可 视 化 


在 线 预测 


(e; 
社区 服务 
阿里 云 基础 设施 CPU 集群 GPU 集群 


7-40 ”机 器 学 习 平 台 架 构 


D 














H PIR ESEAPPTARAUESd, Pe AA Le SN aR ee IES (18 CPU 和 GPU 
混合 分 布 ) 的 分 布 式 计算 引擎 ， 文 持 GPU FREN Septic EESJRRESE TJAE: 
Trev ELA e E TRU ELA Se S USER fH 2453 MR (Map Reduce ) 和 PS 
( Parameter Server ) S5, fESCbRHJBRIEHR, FA FO T RAER AE RAE ax P E ERR, 
用 户 只 需要 考虑 日 已 的 场景 适用 于 哪些 算法 即 可 ,做 到 了 算法 和 计算 染 构 的 解 厢 。 模 型 与 
算法 层 是 用 户 直 接 操 作 的 一 层 ， 提 供 了 90 余 种 算法 组 件 ， 简 单列 举 一 下 这 葡 产 品 中 文 持 
的 算法 组 件 〈 见 表 7-4 )。 
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A 17-4 支持 算法 组 件 


支持 Mysql. MaxCompute 数据 源 《〈 阿 里 云 的 一 款 分 布 式 计算 引擎 ) 和 OSS (阿里 
云 非 结 构 化 数据 存储 ) 


数据 预 处 理 采样 、 过 滤 、SQL 操作 、 数 据 类 型 转换 、 拆 分 、 缺 失 值 填充 、 归 一 化 和 标准 化 等 





数据 源 








特征 工程 特征 变换 、 特 征 重要 性 评估 、 特 征 选 择 和 特征 生成 等 
统计 分 析 全 表 统 计 、 协 方差 矩阵、T 检验、 皮尔 森 系 数 和 经 验 概 率 密 度 图 等 
机 器 学 习 算法 逻辑 回归 、 随 机 森林 、K-Means、KNN、GBDT、 朴 素 贝 叶 斯 和 线性 回归 
文本 分 析 分 词 、ngram-count、 文 本 摘要 、Word2Vec 和 Doc2Vec 等 
关系 图 算法 K-Core、 最 源 单元 路 径 、 标 签 传播 分 类 、 标 俭 传播 聚 类 、 最 大 联通 子 图 和 PageRank 
深度 学 习 框 架 Tensorflow、MXNet 和 Caffe 








K 7-4 中 大 致 询 举 了 阿里 云 机 璐 学习 平 台 提供 的 一 坚 算 法 组 件 , 可 以 看 出 组 件 的 数量 以 
及 绑 兰 的 算法 种 类 非 角 多 。 访 外 整个 算法 平台 还 捉 供 了 模型 评 佑 、 可 视 化 、 在 线 预测 和 离线 
训练 这 些 服务 ， 利 用 这 些 算法 和 服务 束 可 以 搭建 如 金融 风 控 和 疾病 预测 这 样 的 场景 采 例 。 


























PHRF AWS ML 的 同 导 式 算 法 模型 搭建 流程 ， 如 图 7-41 Aros, Pal last PP 
采用 拖拉 搜 的 方式 搭建 实验 流程 ， 同 导 式 的 模型 训练 建立 方式 能 更 容易 上 于 , 但 是 阿里 云 
这 种 拖拉 搜 却 的 操作 对 实验 的 扩展 性 和 目 定义 性 更 有 你 证 。 























tensorflow cifar10 test 
会 ”常用 组 件 


困 保存 的 分 组 





日 写 数 据 表 


Q i OSS Bucket-1 ©) 





日 污 数 据 表 
日 OSS 数 据 同步 


日 Mysql 数 据 同步 


O 特征 尺度 变换 
O 特征 异常 平滑 
O 异常 检测 模块 
(C) one-hot 纺 三 


一 v ~N 
O 特征 高 散 4 v ~ eo TensorFlow. pred... ©) 
O 主 成 分 分 析 (PCA) eo TensorFlow train — (/)) n 














Bs 特征 重要 性 评估 
8s “特征 选择 

8s 特征 生成 
统计 分 析 


i 数据 视图 





Ed 协 方差 





(ima LO 评 估 对 比 
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SWAA zer cto oto) 





XENSRTESHEI, RIH JEIEN MEE AE] FEA eB HR RII 
pi b. ARRAS Ee, Fe A EEE MEP PIS EA 
验 给 人 一 种 次 积木 式 的 感觉 ， 不 需要 去 考虑 撒 层 的 计算 资源 和 运 维 这 坚 因 素 ， 算 法 工程 师 
只 要 把 精力 聚焦 到 业务 的 场景 以 及 算法 的 挫 配 即 可 。 


在 使 用 阿里 云 机 豆 学 习 平 台 进 行 实验 的 时 候 有 一 点 需要 注意 ， 因 为 在 搭建 数据 预 处 
理 、 特 征 工程 和 机 妖 学 习 算法 等 环 太 时 都 有 很 多 的 组 件 供 选 择 ( AWS ML 选 拌 余地 相对 单 
一 )， 所 以 要 求 使 用 者 具备 一 定 的 机 带 学 习 基 础 。 这 些 基 础 的 数据 挖掘 月 景 其 实 可 以 通过 
前 面 的 草 攻 来 学 习 ， 下 面 还 是 介绍 下 如 何 次 建 一 僚机 带 学 习 的 算法 流 程 。 






























































2. 机 器 学 习 实 验 

Bal EB ZA La =) PAT 是 阿里 云 数 加 上 的 一 蒜 针 对 入 工 入 能 领域 的 产品 , 我 们 进入 产品 
的 详情 页 https://data.aliyun.com/product/learn， 然 后 查看 如 何 快速 地 搭建 一 僚 实 验 。 

(1) 账号 注册 。 进 入 产品 详情 页 之 后 ， 单 击 右上 和 角 注 册 账 和 号 ， 首 先 完成 阿里 云 的 账号 
注册 ， 早 击 “立即 开通 ”按钮 ， 如 图 7-42 Aros, EA mee hl FATAL o 


























[gp [LUE 新 活动 品 ADR abp ” 大 数据 HK 支持、 Are Be 


BSA 
机 器 学 习 PAI 
阿里 云 机 器 学 习 是 基于 阿里 云 分 布 式 计算 引擎 的 一 款 机 器 学 习 算法 平台 以 极 低 的 代价 帮助 您 的 业务 从 B 


时 代 跨 入 AI 时 代 ， 真 正 实现 人 工 智 能 触手 可 及 


TBD FH 免费 试用 


算法 丰富 DEM Hu 


100 余 种 算法 组 件 ， 杜 盖 回 归 、 分 a. ”支持 业内 主流 深度 学 习 框架 以 及 
类 、 聚 类 、 文 本 分 析 等 算法 。 GPU 分 布 式 计算 。 


可 视 化 操作 界面 


。 可视化 操作 界面 一 站 式 服务 


> ”通过 拖拉 搜 的 方式 拖 动 算法 组 件 拼 jo | | 。 提供 完整 的 数据 挖掘 链 路 ， 做 到 一 
接 实现 业务 逻辑 . eo 





图 7-42 产品 详情 页 
进入 控制 台 之 后 ,在 机 带 学 习 的 标签 下 面 单 击 “ 创 建 项 目 "， 建 立 MaxCompute 项 目 ， 


这 个 就 是 机 器 学 习 算法 下 层 的 计算 资源 。MaxComupute 项 目 创建 完成 后 , 单 击 相关 项 目下 
的 “进入 机 页 学 习 ” 按 盘 束 可 以 跳 转 到 阿里 云 机 三 学 习 平台 的 首页 ， 如 图 7-43 所 未 。 




















最 新 功能 


金融 模块 
时 间 序列 


Tensorflowsz i] 


更 多 


Q 新 手 引导 


PAI 快 速 上 和 手 
视频 课程 
算法 组 件 介绍 


更 多 


Tensorflow 图 片 分 类 


心脏 病 预 测 案例 


常见 问题 


常用 算法 使 用 案例 


【 推荐 算法 ] 商品 推荐 


贷款 预测 的 回归 算法 .… 


© 新 增 tensorflow ( 合 tensorboard 查 看 ) 、MXNet、Caffe 等 深度 学 习 算 法 x 


云 栖 社 区 


【 玩 转 数据 系列 二 】 机 器 学 习 应 用 没 那么 难 ， 这 次 教 你 玩 心脏 病 预测 


[ 文本 分 析 ] 新 闻 分 类 


[ 在 线 预测 ] 中 学 生成 绩 .… 


a 





7-438 ”阿里 云 机 器 学 习 首 页 





首页 其 实 已 经 内 置 了 很 多 算法 模板 ,可 以 通过 


o Hub “ET EN 


(2) 输入 数据 源 。 进 


O 主 成 分 分 析 (PCA) 
Bs ”特征 重要 性 评估 


特征 选择 


k 2 OSS Bucket 
?& MXNet 

?& TensorFlow 
TW 格式 转换 组 件 
`k Caffe 
文本 分 析 

网 络 分 析 

IR 


废弃 栏 (15 天 后 会 下 线 ) 


Z 


HIX 


验 ” 按 钮 ， 进 入 实验 的 搭建 环境 中 。 
入 算法 搭建 的 画板 ， 如 图 7-44 所 示 。 


文 些 模 极 轻 松 地 学 


booktest ¥ 


(imc LI 评估 对 比 
7-44 实验 搭建 

















到 算法 】 金融 风 控 实验 


y 


习 整 个 产品 的 使 用 方 
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因为 机 带 学 习 实验 首 抑 要 考虑 数据 的 导入 ， 阿 里 云 机 豆 学 习 文 持 多 种 数据 产 ， 这 里 我 
们 使 用 的 是 把 本 地 数据 上 传 到 MaxCompute H/F NAGER TEAL AMMAR EN Aer Fk BI Z 
据 源 ”， 单 击 创建 表 ， 如 图 7-45 ATA. 


























7-45 创建 表 


此 处 文 持 把 本 地 的 TXT 或 者 CSV 数据 上 传 ,然后 把 上 传 好 的 数据 表 组 件 拖 到 画布 上 ， 
右 击 组 件 选 择 “ 查 看 数据 "， 束 可 以 看 到 数据 都 已 经 导入 数据 表 中 ， 如 图 7-46 Ara. 























7-46 数据 表 


(3) 次 建 实验 。 根 据 上 文 介绍 的 机 融 学 习 的 整套 流程 ， 拿 到 数据 源 之 后 ， 还 要 进行 数 








据 预 处 理 、 特 征 工 程 、 机 楷 学 习 、 预 测 和 评估 等 组 件 的 搭配 ,最 后 拼接 成 如 图 7-47 所 示 效 
ABUSE URGERE c 
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7-47 ”实验 流程 
(4) 模型 评估 。 在 这 个 实验 中 ,我 们 使 用 了 逻辑 回归 算法 ， 可 以 右键 单 击 “ 一 分 类 评 


佑 ”模块 查看 评 佑 结果， 在 这 里 可 以 通过 ROC 曲线 和 K-S 曲线 等 可 视 化 的 评估 工具 对 实 
验 效 末 进行 模型 评 佑 〈 见 图 7-48 )。 








Precision Recall 





7-48 ”模型 评估 


7A 企业 级 云 机 器 学 习 工 具 











我 们 也 可 以 在 最 左边 的 “模型 ”标签 下 面 ， 找 到 实验 对 应 的 模型 ， 右 击 “ 查 看 模型 ”， 
看 一 下 逻辑 回归 训练 生成 的 醒 型 参数 ， 如 图 7-49 Br. 





逻辑 回归 二 分 类 


1.276166234799704 

2.500879921190092 

-0.538240084756683 
restecg 0.2742393193311741 
exang 0.8956088088447577 
slop 1.286359823911233 
thal 1.3443722689632 


age -1.102340769419007 





保存 到 ODPS: pai Ir coefficient xlab m logisticregress 285327 vO 关闭 


7-49 模型 参数 














(5) 部 悍 。 前 面 我 们 通过 阿里 云 机 带 学 习 平台 已 经 训练 生成 了 模型 并 且 进 行 评 佑 ,， 接 
下 来 介绍 整个 实验 流程 如 何 应 用 到 实际 的 生产 环境 中 。 通 妾 来 齐 ， 机 楷 学 习 的 模型 有 两 种 
部 葫 方 式 ， 一 种 是 离线 调度 ， 琅 一 种 是 在 线 预测 。 














离线 调度 通 妆 应 用 在 对 实时 性 要 求 不 噩 的 场景 下 。 例 如 做 一 个 球赛 预测 系统 ， 只 要 
每 次 在 比 完 前 一 天 晚上 局 动 预测 购 服 务 即 可 ， 因 为 比 餐 往往 是 周期 性 的 ， 所 以 这 个 系统 
也 就 是 一 个 周期 性 调度 系统 。 这 个 预测 服务 可 能 会 包含 预先 录入 的 历史 全 量 数据 ， 然 后 
通过 实验 更 新 机 亲 学 习 算法 模型 ， 对 下 一 场 的 结果 进行 一 个 预测 。 这 个 离线 调度 可 以 配 
合 阿 里 云 的 男 一 蒜 产 品 “ 大 数据 开发 套件 ”来 实现 ,“ 大 数据 开发 套件 ” 跟 “ 阿 里 云 机 妖 
学 习 ” 已 经 打通 ， 用 户 可 以 直接 在 “大 数据 开发 套件 ”中 关联 机 硕 学 习 实 验 ， 通 过 大 数 
据 开 发 套件 的 地 址 https://data.aliyun.com/product/ide 进入 产品 页 ， 单 击 “ 数 据 开 发 "”， 选 
择 相 应 的 项 目 〈 需 要 跟 阿 里 云 机 璐 学习 中 需要 被 调度 的 项 目 一 致 ) 在 新 建 任务 的 功能 
选择 “机 辟 学 习 "， 然 后 束 可 以 通过 配置 相应 的 时 间 调 上 度 参 数 来 周期 性 地 调度 离线 模型 ， 
如 图 7-50 所 示 。 

































































建立 了 一 个 机 带 学 习 的 实验 调度 之 后 束 可 以 关联 到 阿里 云 机 融 学 习 平 台中 对 应 的 实 
验 ， 然 后 通过 设置 调度 日 期 来 进行 离线 的 调度 训练 ， 如 图 7-51 所 示 。 
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O 工作 流 任务 Ọ 节点 任务 


ODPS SQL 
OPEN MR 
Seal 


> BSR 





7-50 WAS ULHBE 


机 器 学 习 代 码 


<Sql> 
«endpoint»http://service.odps.aliyun.com/api«/endpoint» 
«extra» 
«entry» 
«key»executionType«/key» 
«value xmins:xsd-"http://www.w3.0rg/2001/XMLSchema" 
xmins:xsi="http://www.w3.org/2001/XMLSchema-instance” xsi:type="xsd:int">1</value> : 一 
</entry> “ 暂停 
</extra> 
ee : 1970-01-01 É 至 2115-12-05 [i 
«subJobld»1«/subJobld» 
<sql>drop table if exists pai temp 16479 285322 1«/sql» 
«useProductKey»false«/useProductKey» 
«/sql» 
«sgi» 
«endpoint»http://service.odps.aliyun.com/api«/endpoint» 
«extra» 
«entry» 
«key»executionType«/key» 
«value xmins:xsd="nttp://www.w3.org/200 1/XMLSchema" 
xmins:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:type="xsd:int">1</value> 
</entry> : garvin test 
</extra> 
<project>garvin_test</project> 





7-51 机 器 学 习 调度 配置 





相 比 于 离线 调度 ， 在 线 预测 适合 于 对 实时 性 要 求 非 常 高 的 场景 。 因 为 机 器 学 习 算 法 最 
终生 成 的 是 一 个 预测 模型 ， 在线 预 测 就 是 把 这 个 模型 进行 部 署 使 其 可 以 在 线 服务 。 以 心脏 
病 预 测 案 例 为 例 , 我 们 可 以 通过 历史 数据 生成 疾病 预测 模型 , 然后 把 模型 部 署 为 在 线 模型 ， 
如 图 7-52 所 示 。 
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在 真实 的 应 用 场景 下 , 每 进来 一 名 患者 , 都 可 以 通过 阿里 云 机 器 学 习 的 在 线 预测 APT, 
如 图 7-53 所 示 ， 对 其 是 否 患 病 进 行 预 测 。 


在 线 预 测 部 署 


SERJE: 2016-11-25 10:32:37 清查 看 页 面 下 方 信息 


"dataType": 40, 
METRES Fi) 1093 "dataValue': 0.1036 
P 远 辑 回归 二 分 举 -1- { 
"dataType": 
"dataValue": 


用 户 流失 数据 建 术 


HEE AS 


[ 图 算法 ] sän = 


“dataType": 40, 


[ 图 算法 ] SOK dataValue*: 1013 





[ 文本 分 析 ] BFE 
P 均值 紧 类 -1- = 
LARI “ 
7-52 模型 部 署 7-53 模型 API 
士 
3. 小 结 














前 面 介 绍 了 阿里 云 机 融 学 习 平 台 的 功能 和 实际 操作 方法 。 这 款 机 带 学 习 平 台 跟 亚 马 示 
的 机 融 学 习 平 台 是 两 种 六 计 思 路 的 产品 。 亚 马 过 的 平台 偏向 于 新 手 用 户 . BAD EF, 但 
是 解决 的 用 户 场景 较为 单一 而 且 给 用 户 的 可 目 定义 衬 间 非常 小 。 阿 里 云 的 机 融 学 习 平 台 需 
要 一 定 的 上 手 门 栈 ， 但 是 可 以 解决 比较 丰富 的 场景 而 且 扩展 性 比较 踢 。 总 体 来 看 ， 阿 里 云 
机 三 学 习 平台 的 算法 比较 丰富 ， 而 且 成 束 度 很 局 ,无论 是 对 企业 级 用 户 或 者 是 机 融 学 习 的 
爱好 者 来 计 ， 使 用 阿里 云 机 带 学 习 平 台 都 是 一 个 不 错 的 选择 。 






































7.5 ”本 童 小结 





本 瘟 针 对 不 同 特点 的 机 豆 学 习 工 具 进 行 了 介绍 ， 分 别 介绍 了 单机 版 机 带 学 习 工 具 、 开 
源 分 布 式 机 融 学 习 工 具 和 企业 云 机 豆 学 习 服 务 。 笔 者 认为 ,在 实际 挑选 工具 的 时 候 主 要 以 








206 | #7 
常见 机 器 学 习 工 具 介 绍 








完成 目 时 业务 价值 作为 基础 原则 ， 如 采 数 据 量 非常 小 ， 只 有 儿 十 兆 数 据 ， 那 么 选择 单机 版 
工具 即 可 。 企 业 级 的 机 带 学 习 服 务 主要 解决 的 是 运 维 成 本 以 及 算法 服务 的 问题 。TensorFlow 
作为 主流 的 深度 学 习 计 算 框 染 , 会 有 越 来 越 多 的 云 服 务 商 将 TensorFlow 部 弗 在 云端 进行 售 
卖 。 如 果 是 深度 学 习 的 使 用 者 ， 建 议 选择 Caffe 或 者 TensorFlow 这 样 的 开源 深度 学 习 架 构 
进行 学 习 。 如 采 数 据 量 非 党 大 而 且 对 服务 稳定 性 要 求 较 高 的 情况 ， 建 议 选 择 企业 云 服 务 的 
机 怖 学 习 相 关 工 具 ， 目 前 阿里 云 机 需 学 习 平台 已 经 增加 了 对 TensorFlow、Caffe 和 MXNet 
等 开源 深度 学 习 框 染 的 支持 。 



































第 4 部 分 


实战 应 用 


MES 
业务 解决 方案 








前 面 的 章节 中 对 机 器 学 习 的 整个 流程 都 进行 了 介绍 , 针对 每 一 个 数据 挖掘 环节 中 可 能 
用 到 的 组 件 都 进行 了 描述 。 但 是 可 能 有 的 读者 还 会 比较 迷惑 ， 因 为 当 了 解 机 器 学 习 有 这 么 
多 的 流程 之 后 ,往往 会 提出 这 样 的 问题 一 如 何在 实际 的 业务 场景 中 把 这 些 复杂 的 机 器 学 
习 流程 趾 起 来 ”本 章 将 针对 不 同业 务 场景 的 真实 案例 , 具体 讲解 如 何 通过 机 器 学 习 算法 来 
解决 问题 。 


本 瘟 选 用 开源 数据 集 作 为 实验 数据 ， 用 阿里 云 机 带 学 习 平 台 《〈 有 具体 操作 方式 见 第 7 章 
天 于 平台 工具 的 介绍 ) 作为 实践 平台 采 介 绍 每 一 个 案例 ， 因 为 阿里 云 机 表 学 习 平 人 台 的 算法 
比较 丰 宣 而 且 每 一 步 都 能 可 视 化 展示 ,方便 读者 拆 解 和 理解 数据 挖掘 的 完整 链 路 。 我 们 最 
终 的 目的 不 是 验证 实验 结 有 末 , 而 是 硕 鹿 通过 这 些 案 例 真正 帮助 读者 建立 起 机 融 学 习 建 模 的 
整套 逻辑 ， 笔 者 坚信 实践 是 理解 算法 的 最 有 效 途 径 。 
















































































8.1 心脏 病 预 测 








是 到 大 效 据 或 是 人 工党 能 ， 人 们 往往 会 联想 到 这 些 新 技术 对 传统 行业 的 变 平 和 影响 。 
现在 人 工 知 能 算法 已 经 深入 到 了 很 多 传统 领域 ,， 并且 在 这 些 统 域 引发 数字 化 的 变 乎 ， 本 广 
惑 来 介绍 一 下 如 何 通过 机 融 学 习 自 法 解决 医疗 行业 的 心脏 病 预 测 问题 。 

















8.1.1 场景 解析 


心脏 病 定 人 类 健康 的 头号 杀 于 ， 每 年 全 世界 有 1/3 的 死亡 人 口 是 由 心脏 病 引 起 的 ,在 
我 国 每 年 有 几 十 万 人 犯 于 心脏 病 。 在 本 和 案 份 中 ,我 们 通过 用 户 的 真实 体检 数据 来 预测 用 户 
FEA VALI IBA, POER 80%。 
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数据 集 地 址 (选用 UCI 开源 数据 集 ) 如 下 。 
http://archive.ics.uci.edu/ml/datasets/Heart-- Disease?spm-5176.d0c34929.2.1. WROKIR 


下 面 定 数据 结构 以 及 各 个 字段 数据 的 说 明 《〈 部 分 数据 如 图 8-1 所 示 )。 























Z 8-1 部 分 数据 





Zar RET E BH XC DR 8-1。 


表 8-1 字段 含义 
age 对 象 的 具体 年 龄 
sex 性 别 对 象 的 性 别 female 和 male 


m 痛感 由 重 到 无 typical. atypical. non-anginal 
cp 胸部 疼痛 类 型 String yp NP 8 
和 asymptomatic 
S 


= [ETT 





as en 


1 糖 含量 12 | ， 石 则 大 
| BAF Ime e, SOS 
alse 


thalach 最 大 心跳 数 最 大 心跳 数 


exang 运动 时 是 否 心绞痛 true AA CRIK, false 为 没有 


IA A Y Elm 
depression 


心电图 ST segment BL Bü ST segment 的 slope, FEEST down, flat 
slop AJ String 和 up 


ca 透视 检查 看 到 的 血管 数 血管 数量 
thal 缺陷 种 类 由 轻 到 重 norm, fix 和 rev 
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针对 以 上 的 数据 要 做 以 下 几 点 分 析 。 


1) 首 允 对 这 个 场景 要 进行 抽 朋 ,我 们 拿 到 了 一 份 体检 数据 。 这 份 数 据 包含 很 多 维度 ， 
要 解决 的 问题 是 预测 对 角 是 否 患 有 心脏 病 。 对 角 是 合 叫 病 只 有 两 种 可 能 , EB SI o 
又 因为 这 份 数据 是 打 标 好 的 (字段 status 是 目标 列 ) 也 束 是 说 它 是 一 个 监督 学 习 场景 。 玫 
是 我 们 可 以 把 问题 定性 为 一 个 二 分 类 间 题 ， 这样 束 可 以 通过 查找 二 分 类 相 天 的 算法 来 找到 
具体 的 解决 办 法 ， 在 这 一 步 把 算法 确定 了 下 来 。 





















































2) 分 析 数 据 。 数 据 其 实 是 半 结 构 化 数据 ， 很 多 字段 都 是 String 类 型 ， 可 能 需要 进行 
特征 的 抽象 。 在 数据 质量 方面 ， 没 有 出 现 乱 人 码 或 者 是 空 字符 的 数据 ， 可 以 确定 字段 status 
为 目标 列 ， 其 他 列 为 特征 列 。 


























3) 因为 这 份 数据 全 部 是 打 标 好 的 数据 ， 可 以 通过 拆 分 数据 集 的 方法 对 训练 生成 的 模 
型 进行 评估 ，80% 的 数据 进行 训练 ，20% 的 数据 来 预测 和 评估 。 

如 上 所 述 ， 利 用 之 前 介绍 过 的 知识 对 数据 集 进 行 了 场景 解析 。 总 结 一 下 ， 我 们 得 到 了 
如 下 这 些 结论 。 





e 这 尽 一 个 二 分 类 的 监督 学 习 场 景 ， 可 以 选用 逻辑 回归 和 SVM 等 二 分 类 算法 。 
o 数据 为 半 结 构 化 数据 ， 需 要 做 特征 抽象 。 

。 因为 数据 都 是 打 标 数据 ， 可 以 利用 拆 分 数据 集 的 方式 对 生成 模型 进行 评 售 。 
有 了 以 上 这 些 结论 ， 下 面 束 可 以 指导 搂 下 来 的 实验 挫 建 流程 了 。 























8.1.2. 实验 搭建 
首先 看 一 下 最 终 搭建 好 的 整个 实验 的 逻辑 图 ， 如 图 8-2 所 示 。 





整个 实验 的 流程 是 按照 从 上 到 下 来 执行 的 ， 我们 从 纵 癌 把 实验 切 分 为 数据 源 、 数 据 预 
处 理 、 特 征 工程 、 训 练 和 预测 和 评估 5 个 部 分 。 横 回来 看 的 话 ， 通 过 拆 分 组 件 把 实验 拆 成 
了 训练 和 预测 两 个 分 支 。 下 面 从 纵 同 来 介绍 一 下 每 个 环 广 用 到 的 算法 以 及 原理 。 











C1) 数据 源 。 通 过 阿里 云 机 带 学 习 平 台 的 上 传 本 地 数据 〈《UCI 的 开源 数据 集 地 址 在 
8.1.1 DEER ) 的 功能 把 数据 上 传 到 Maxcompute KE, HERBO ERAAI, MAR 
数据 上 传 成 功 ， 则 可 以 看 到 如 图 8-3 所 示 的 数据 展示 。 











212 | #88 
业务 解决 方案 


I heart disease p... © 数据 源 


L--L------ 


i Que 1 ©) 特征 工程 
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8-2 心脏 病 预 测 实验 














trestbps 4 | fos a restecg a thalach 4 exang 4 oldpeak 4 | status 4 style 4 


145.0 j true hyp 150.0 fal 2.3 . i buff 
160.0 1 fal hyp 108.0 1.5 
120.0 j fal hyp 129.0 2.6 
130.0 1 fal 187.0 3.5 
130.0 j fal hyp 172.0 1.4 
120.0 1 fal 178.0 

140.0 J fal hyp 160.0 

120.0 1 fal 163.0 

130.0 j fal hyp 147.0 

140.0 1 155.0 

140.0 j 148.0 

140.0 1 153.0 


8-3 Zug 








(2) 特征 工程 。 因 为 数据 是 半 结 构 化 的 ， 所 以 需要 把 字符 型 特征 转化 成 算法 可 以 处 理 
的 数值 表示 ， 实 现 特征 抽象 。 通过 第 4 章 介绍 的 特征 工程 方面 的 知识 来 实现 这 个 功能 ， 下 
AKA SQL 语句 。 








select age, 


(case sex when 'male' then 1 else 0 end) as sex, 
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(case cp when 'angina' then 0 when 'notang' then 1 else 2 end) as cp, 
trestbps, 
chol, 


(case fbs when 'true' then 1 else 0 end) as fbs, 


(case restecg when 'norm' then 0 when 'abn' then 1 else 2 end) as restecg, 


thalach, 

(case exang when 'true' then 1 else 0 end) as exang, 

oldpeak, 

(case slop when 'up' then 0 when 'flat' then 1 else 2 end) as slop, 
Ca, 

(case thal when 'norm' then 0 when 'fix' then 1 else 2 end) as thal, 
(case status when 'sick' then 1 else 0 end) as ifHealth 


from ${tl1}; 








${tl} 是 承接 的 数据 产 表 ,通过 SQL 实现 的 特征 抽象 的 方式 如 下 。 如 果 特 征 是 二 值 型 的 ， 





如 sex 这 个 字段 有 male 和 fem 两 种 ， 就 把 sex 抽象 成 0 和 1。 如 果 特 征 的 数值 是 多 值 型 ， 
如 restecg, ， 束 按照 严 重 程度 从 0 到 1 于 到 2 来 抽象 。 经 过 SQL 语句 的 这 一 层 特 征 抽 象 ， 最 

















终生 成 的 结 来 就 全 部 转化 成 了 效 值 型 了， 如 图 8-4 Hrs. 
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图 8-4 特征 工程 处 理 结 





(3) 数据 预 处 理 。 数 据 预 处 理 主要 通过 “类 型 转换 组 件 ” 先 把 数据 类 型 全 部 转化 成 
e a hp 然后 通过 “ 归 一 化 组 件 ” 





对 数据 进行 去 量 纲 处 理 ， 把 全 部 数值 都 归 一 化 到 0 和 1 之 间 ， 如 图 8-5 所 示 。 
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. 0.4811320... .244... | 0.603053... 0.370967... 


. 0.6226415... .. 0.282442... 0.241935... 


.  0.2452830... .. (0.442748... 0.419354... 


0.3396226... 283... 0.885496... 0.564516... 

0.3396226... .. 0.770992... 0.225806... 

0.2452830... .. | 0.816793... | 0.129032... 

0.4339622... .. 0.679389... 0.580645... 0.6666666666666666 
. 0.2452830... .. 0.702290... 0.096774... 0 


. 0.3396226... .. 0.580152... 0.225806... 0.3333333333333333 


E à eo e EE eo b à ml =d 
— e — e e e e — — e T 


0.4339622... .. 0.641221... 0.5 0 


8-5 ”数据 预 处 理 结 








(4) 训练 和 评估 。 数 据 进 入 “ 拆 分 组 件 ”， 在 组 件 中 数据 按照 7:3 的 比例 随机 拆 分 ， 
拆 分 原则 按照 随机 采样 的 算法 实现 ，70% 的 数据 用 米 训 练 模型 ，30% 的 数据 用 来 预测 。 这 
样 做 的 目的 是 运用 大 部 分 的 数据 训练 生成 模型 ， 然 后 用 小 批量 数据 验证 模型 的 惟 确 性 。 训 
练 结束 后 可 以 在 左 侧 的 模型 标 等 中 找到 训练 生成 的 模型 ， 单 击 鼠 标 右 键 查 看 模型 ， 残 可 以 
看 到 了 多 和 辑 回归 的 结 未 ， 结 未 如 图 8-6 Bra. 


逻辑 回归 二 分 类 
































2.241650782424807 

3.121230054243235 

-0.0518654829227824 
restecg 0.6164008389559992 
exang 1.532271181601632 
slop 1.283693042635415 
thal 1.067496868766566 


age -1.621583499632015 





保存 到 ODPS: pai Ir coefficient xlab m logisticregress 285327 v0 关闭 
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通过 比较 多 辑 回归 模型 中 不 同系 数 的 大 小 , BATT AT a ce A Ea 
最 大 。 通过 图 8-6 的 结果 可 以 看 出 , cp 和 sex 对 是 人 奋 串 有 心脏 病 这 个 日 标 值 的 影响 最 大 ( 具 
体 原 理 请 参见 第 3 章 天 于 特征 重要 性 评估 的 内 容 )。 早 击 限 标 右 键 选择 “预测 组 件 ”， 束 可 
以 看 到 真实 结果 和 预测 结 末 的 比较 ， 如 图 8-7 所 未 。 
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prediction, result a prediction, score a prediction, detail a 

0.9948654240316156 { "0": 0.005134575968384403, "1": 0.9948654240316156} 
0.9439420141066057 { "0": 0.9439420141066057, "1": 0.05605798589339427} 
0.8364566313210378 { "0": 0.1635433686789622, "1": 0.8364566313210378} 
0.8667892674430565 { "0": 0.8667892674430565, "1": 0.1332107325569435) 
0.9208617168295431 { "0": 0.9208617168295431, "1": 0.07913828317045692} 
0.6020331948525534 { "0": 0.6020331948525534, "1": 0.3979668051474466) 
0.9983310299822465 { "0": 0.9983310299822465, "1": 0.001668970017753493} 
0.984331 7658762636 { "0": 0.9843317658762636, "1": 0.01566823412373637} 


0.9541826418140896 { "0": 0.9541826418140896, "1°: 0.04581735818591037} 


1 
1 
1 
1 
1 
1 
1 
1 


0.5348615458694048 { "0": 0.5348615458694048, "1°: 0.4651384541305952) 
0.9942481016720607 { "0": 0.00575189832793932, "1": 0.9942481016720607} 


0.5840279704708249 { "0": 0.4159720295291751, "1": 0.5840279704708249) 


_- O 2 Oo «a oO O a O O «a Qo = 
< è a — O O O O O O O a O = 





0.9783519373629029 { "0": 0.02164806263709707, *1*: 0.9783519373629029} 


图 8-7 模型 预测 结果 





ifhealth 是 数据 的 真实 日 标 值 ，prediction_result 是 预测 值 ，prediction_score 是 置信 度 
(置信 和 度 表 示 模 型 对 预测 结果 的 信心 ， 数 值 越 大 表示 结果 越 可 信 )。 


(5) 模型 评估 。 因 为 本 次 实验 是 一 个 二 m didi 已 经 通过 “预测 组 件 ” 拿 到 了 预测 
值 和 真实 值 的 结果 ,但 是 我 们 需要 更 直观 地 验证 实验 是 否 准确 ， 所 以 选择 了 “二 分 类 评估 
组 件 ” 对 结果 进行 评估 。 单 击 女 标 右键 选择 ee SE ARAL” 查看 评 佑 报告， 就 可 以 
看 到 可 视 化 的 评估 结果 ，ROC 曲线 如 图 8-8 所 示 。 














ROC 


AUC 值 ;: 0.8457446808510638 


Precision Recall 





8-8 ROC 曲线 


评估 报告 的 “指标 数据 ”标签 下 可 以 看 到 其 他 评估 参数 ， 如 图 8-9 所 示 。 
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F1 Score 


KS 





8-9 评估 参数 





通过 ROC 曲线 和 这 些 参数 ( 具体 参见 第 1 SETA SR RPE ) 藉 能 评估 出 模型 的 质量 ， 
这 里 通过 训练 得 到 了 预测 准确 率 Fl 值 为 0.78 的 模型 。 通 过 比 对 模型 的 质量 就 可 以 决定 是 
奋 将 模型 运用 到 真实 的 业务 场景 中 或 者 重新 进行 训练 调整 。 在 实际 的 应 用 场景 下 ， 用 户 可 
以 将 生成 的 模型 在 线 部 署 并 且 生 成 API， 利 用 这 个 API 束 可 以 实时 对 每 一 条 增 量 数 据 进行 
预 济 ， 搭 建 实时 的 心脏 病 预 测 系 统 。 



































8.1.3 小 结 





本 实验 利用 真实 的 心脏 病 患 痢 体检 数据 建立 了 一 和 套 心 脏 病 预测 模型 , 并 且 使 用 这 个 模 
型 对 预测 集 进行 预测 ， 得 到 了 80% 左 右 的 准确 率 。 整 个 实验 中 没有 进行 很 多 模型 的 调 优 以 
及 多 个 算法 的 组 合 ， 实 验 的 主要 目的 是 展示 整个 数据 挖掘 的 全 链 路 流程 ， 并 且 通 过 算法 真 
正解 决 业务 问题 。 我 们 肌 来 回顾 一 下 操作 步 又， 首先 要 做 场景 的 解析 ， 分 析 数 据 并 且 把 场 
景 抽 角 成 二 分 类 问题 ， 接 大 根 据 数据 挖掘 的 流程 把 实验 搭建 起 来 。 最 后 ， 心 脏 病 预测 这 个 
简单 的 监督 学 习 二 分 类 和 案例 焉 介绍 完成 。 


























8.2 商品 推荐 系统 








商品 推荐 是 当下 机 融 学 习 自 法 应 用 中 比较 成 狼 的 一 个 场景 ， 当 我 们 打开 训 砚 天 进入 电 
商 网 站 时 ,都 可 以 看 到 在 侧 框 出 现 商 品 推 荐 。 这 些 推 存 的 疹 后 可 能 是 很 复 淋 的 框 染 ， 如 基 
于 用 户 画 像 和 历史 购买 数据 的 推荐 引擎 , 也 有 可 能 是 倘 单 按照 人 群 划 分 的 一 类 推荐 。 推 荐 
系统 作为 电 疝 购 物 系统 中 的 重要 组 成 部 分 , 很 多 读者 都 希望 了 解 其 中 的 一 些 原 理 ， 本 市 束 
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利用 推荐 算法 





商品 推荐 系统 。 


8.2.1 场景 解析 


协同 过 滤 算 法 是 常用 的 商品 推荐 算法 , 协同 过 滤 的 原理 就 是 找 出 特性 相同 的 一 类 人 群 
或 者 物品 , 然后 通过 群体 的 划分 来 进行 推荐 。 下 面 通过 一 个 商品 推荐 的 例子 来 说 明 。 侈 如 ， 
有 3 种 商品 分 别 是 手机 、 手 机 壳 和 马桶 , 当 一 个 





























E 








用 户 购买 了 手机 之 后 ， 他 最 有 可 能 购买 的 产品 | 10944780 























0 6 月 

是 手机 过 还 是 马桶 呢 ? 通常 来 讲 应 该 是 手机 | ors s 

& " = UN ere — + 10944750 0 6 月 1 

壳 ， 因 为 两 者 的 关联 性 更 强 。 我 们 通过 协同 过 “| = 

WERE EAT EBAXIESLUEIGUMHPAUNHPEU E |10944780 o x: 

的 对 应 关系 。 本 案例 通过 简单 的 实验 措 建 一 套 。 | mere i ZI 
基于 协同 过 着 的 推荐 系统 。 EN > = 
10944750 1 6H 

本 案例 采用 的 数据 集 来 目 网 络 开 源 的 用 户 | 1094470 0 6 有 
购物 行为 数据 集 ， 如 图 8-10 所 > ^o 8—10 购物 数据 集 





效 据 集中 各 字段 合 义 见 表 8-2。 








义 
F E 名 a X 类 型 Ho xh 
TT umi m 
active type 购物 行为 0 表示 点 击 、1 表示 购买 


通过 图 8-10 中 的 数据 , 我 们 了 解 到 这 是 一 个 典 型 的 电 商 购 物 数据 的 日 志 记 录 ，, 数据 包 
含 了 可 以 用 于 协同 过 沽 算法 的 字段 一 一 用 户 以 及 商品 〈user-item ) 对 ， 还 包含 了 每 个 
user-item 对 的 行为 方式 以 及 发 生 时 间 。 通过 以 上 数据 , 我 们 残 可 以 把 整个 实验 的 评估 场景 
也 抽象 出 来 ,按照 时 间 对 数据 进行 拆 分 ， 如 选择 用 户 前 3 个 月 的 购物 数据 去 做 协同 过 泌 算 
去 ， 找 到 如 手机 和 手机 壳 这 样 的 高 频 成 交 对 ， 然 后 册 用 后 几 个 月 的 购物 数据 去 验证 这 些 成 
交 对 的 准确 性 。 具体 的 推荐 原则 如 下 。 例 如 通过 协同 过 沽 算法 得 到 了 商品 A 和 商品 也 
被 打包 购买 ,那么 当 一 个 用 户 购 买 了 商品 A 之 后 , 就 推荐 商品 B 给 他 ,这 是 一 种 基于 商 
属性 的 关联 规则 。 
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以 下 对 上 述 分 析 内 容 做 一 个 归纳 。 
。 数据 集 适 合 于 通过 协同 过 滤 算 法 做 推 在。 


。 通过 算法 可 以 找到 成 交 可 能 性 高 的 商品 对 A M Bo 











e HEUS AR, HHA m Bo 
下 面 介 绍 如 何 通过 算法 组 件 把 这 套 推 存 系统 挫 建 起 来 。 


8.2.2 实验 搭建 


自 先 来 介绍 整个 实验 的 逻辑 ， 如 图 8-11 Hrs. 

















mm ee ee ë um Emm o um ë num — nus ë Gum ë Eum o GEM ee ee S 8 AG 
I, | | 
I © ci UIS data Y 9 cf ták data v i 
i 拆 分 数据 集 i 
= = > =a mH EO Oe = eem Si zy 
a — AA — AX m-— -—  -— ë — So = um | 
l (o sos xs 2)1 
l | 
d > mN 
i mate 。 Qounees O) 
i 生成 item<csimilar 配 对 [ 
: * Q L 一 、 
i Sl 
CA SQL 整理 给 出 格式 ”四 ) e N 
I | © oo | Quse 9 
| @.on- " D qp - 
Bm - mm — m xm mm umm m o a ee ë i 
mum = p] =x =) pasaj =a == =a - 
+ 
[ JOIN-2 Y | 
I I 
i 推荐 以 及 成 交 结 | 
L Q sas © i 
mmm EE NEM NE — NEED NEED ES M pe 


图 8-11 推荐 系统 逻辑 
我 们 可 以 纵向 地 把 整个 推荐 系统 分 为 3 个 部 分 ， 分 别 是 拆 分 数据 集 、 协 同 过 着 算法 计 
算 、 推 大 以 及 结果 层 ， 每 一 层 的 具体 说 明 如 下 。 
(1) 拆 分 数据 集 。 数 据 集 包 含 4~8 月 的 用 户 购物 数据 ， 按 照 上 文 分 析 的 思路 ， 把 数 
据 集 进行 拆 分 。4 ~6 月 的 数据 用 来 做 协同 过 滤 算 法 训练 ， 找 到 对 应 的 item-similar 对 ， 对 
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应 的 数据 源 组 件 是 “cf_ 训 练 _data”"。 通 过 基于 物品 的 协同 过 滤 算 法 对 7 月 和 月 中 用 户 的 
可 能 购买 商品 进行 推荐 ， 对 应 组 件 是 “cf_ 结 果 _data”。 




















(2) 协同 过 滤 算 读 。 这 部 分 用 到 了 4 个 组 件 ， 首 先 通过 组 件 “SQL 取 购 买 行为 ”把 发 
生 购 买 行 为 的 数据 选择 出 来 ， 用 到 的 SQL 语句 如 下 ， 选 择 active type 为 1 的 数据 ， 数 字 1 
表示 用 户 购 买 的 对 应 商品 。 








select *. from 2[tl) ‘where active type-l ; 


SITE “plays etric 组 件 ” 的 选择 字段 配置 中 选取 user id 和 item. id 两 个 字段 
进行 协同 过 着 训练 , 如 图 8-12 所 示 。 这 两 个 字段 分 别 表 示 购 物 者 以 及 被 购买 商品 的 ID. 











国 STRING 
user id user id STRING 
item id item id STRING 
active type 


active date 





8-12 字段 选择 








最 终 “ 协 同 过 滤 etric 组 件 ” 的 生成 结果 如 图 8-13 所 示 。 


a 
































、， "m EM = È - 15584:0.2747133918 

生成 的 结果 有 两 个 字段 ,itemid 表示 其 中 被 购买 物品 ID, A 
similarity 是 一 个 “K:V” 对 (一 种 数据 表示 形式 ), K 表示 的 3228:0.2650900672 
是 产品 ID, V 代表 着 相似 度 权 重 。 以 图 8-13 中 第 一 行 数据 为 24507:1 
例 , “商品 1000” 和 “商品 15584” 被 同时 购买 的 权重 为 0.2747， imi iid 
E l DM ， "n" » . 18024:0.2104947227 
这 个 权重 越 大 表示 “商品 1000” 和 “商品 15584” 同 时 被 购 

14020:0.2070609237 

3S sz TP 
买 的 概率 越 大 。 18024:0.2104947227 





通过 下 面 的 “SQL 整理 输出 格式 组 件 ” 把 上 面 的 KiV 对 ”图 8-13 协同 过 滤 结 
结构 展开 ，SQL 语句 如 下 。 





select itemid,SPLIT PART(siNmilarity,':"',l) as similar item rrom (tlr; 


最后 通过 “join AP” LA] DORSET 8-14 所 示 的 输出 形态 。 
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8-14 的 意义 为 大 user id HIH f itemid 商品， 那么 user id 也 很 有 可 能 购买 
similar_item。 以 图 8-14 的 第 一 条 数据 为 例 ，user_id 为 19500 的 用 户 一 旦 购买 了 产品 143, 
就 会 为 他 推荐 产品 7105。 


(3) 推荐 以 及 成 交 结 果 。 这 一 步 的 操作 比较 简单 ， 右 是 将 推荐 数据 跟 用 户 的 真实 购买 
数据 进行 一 个 SQL 的 join 操作 ， 得 到 推荐 成 功 的 结果 。 在 “join 组 件 ” 中 拿 到 了 推荐 成 功 
的 列表 ， 因 为 列表 中 会 有 重复 的 条 目 ， 所 以 加 上 一 个 “SQL 去 重组 件 ” 删 除 重 复 项 。 单 击 
鼠标 右键 查看 “SQL 去 重组 件 ”， 就 得 到 了 通过 本 次 实验 搭建 的 推荐 引擎 的 真实 命中 了 哪 
些 推荐 条 目 ， 如 图 8-15 所 示 。 



































a p 


69500 15315 


154500 8689 


232000 7868 
299750 11080 


746000 7105 





图 8-14 join 组 件 输出 图 8-15 ahah ee 





通过 协同 过 滤 算 法 搭建 的 一 合 简 时 的 推荐 系统 至 此 束 完 成 了 ,因为 协同 过 滤 本 来 就 尽 
针对 商品 推荐 场景 所 研发 的 算法 , 所 以 在 整个 实验 过 程 中 并 没有 很 多 难 理解 的 地 万 或 者 复 
杂 的 操作 。 协 癌 过 着 算法 的 本 质 其 实 是 聚 类 ,在 实际 的 使 用 过 程 中 需要 市 入 大 量 的 数据 让 
算 ， 才 能 达到 比较 理想 的 效果 。 


























8.2.3 小 结 


本 案例 通过 协 癌 过 涯 算法 搭建 了 一 套 简 单 的 商品 推 存 系统 , 在 实际 业务 中 如 末 想 捉 高 
推 存 商品 的 命中 率 , 需要 做 大 量 的 优化 工作 , 包括 人 物 画 像 以 及 购买 行为 的 回忆 算法 分 析 ， 
协同 过 着 往往 只 是 整个 推 存 链 路 的 一 个 补 序 。 本 案例 作为 一 个 简单 的 推 存 系统 实验 ， 希 于 
能 给 读者 在 设计 实际 业务 的 落地 方案 方面 市 来 一 扣 局 未 。 






































8.3 ”人 金融 风 控 案例 








随 看 互联 网 金融 行业 的 发 展 ， 人 们 可 以 在 网 上 做 各 种 舍 蒜 、 理 财 和 你 险 等 金融 业务 ， 








8.3 ”金融 风 控 案例 





随 之 而 来 的 问题 是 服务 捉 供 方 如 何 将 风险 控制 到 最 低 。 稼 用 的 一 种 风 控 方法 束 是 通过 用 户 
的 社交 行为 做 风险 管控 。 例 如 我 们 开 一 家 P 对 外 借贷 业务 ， 需 要 评估 贷款 人 的 信用 ， 这 
些 信 用 可 以 通过 贫 蒜 入 交友 圈子 的 整体 信用 来 做 一 个 判断 。 本 条 例 束 是 通过 关系 图 算法 挖 
据 人 员 天 系 网 络 中 的 彼此 信用 ， 实 现 一 个 金融 风险 控制 的 场景 。 





8.3.1 场景 解析 


ASE VE PEF DME ACR A eS, Be SIRS AAA BE 
WA, ALP E BRAR Be] Vat S RAMA AT RAE. PA BE LAKE SUUS 
表 中 两 名 用 户 的 属性 ， 这 个 属性 表示 用 户 为 欺诈 用 户 或 者 是 信用 用 户 的 概率 。 通 过 以 上 信 
上 县， 我 们 需要 利用 关系 图 自 法 计算 出 整个 关系 网 络 中 每 个 
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用 户 的 信用 分 。 在 本 各 例 中 ,希望 可 以 通过 计算 出 全 部 图 
天 系 网 络 中 每 个 人 的 信用 指标 ， 从 而 为 金融 的 风险 控制 做 


BA 

SORA PAGES, AAEM EERIE 5 HELAN 
AT, KARA AEN SOR SUIS TEASE BI 
中 ， 笔 者 随 机 生成 了 一 份 实验 数据 ， 如 图 8-16 PAN 





























这 份 数据 集 包 含 3 个 字段 ， 分 别 是 start_point , 
end point 和 count， 分 别 对 应 了 图 关系 中 的 起 始点 、 终 点 
以 及 两 点 间 的 权重 ， 字 段 描 述 见 表 8-3。 





表 8-3 ”字段 描述 


Enoch 
Enoch 
Gregary 
Evan 


Evan 


Gregary 


Jeff 
Hale 
Keith 
Keith 
Leif 





Evan 
Gregary 
Hale 
Hugo 
Jeff 
Keith 
Keith 
Jeff 
Leif 
Lionel 


Mick 


i 7 
miim A 
count 关系 紧密 度 


紧密 


我 们 还 已 知 其 中 两 名 用 户 的 的 信用 指数 ， 如 图 8-17 所 未。 


在 这 个 图 关系 网 络 中 ，Enoch 是 信用 用 户 ， 权 重 是 1; Evan 是 欺诈 用 户 ， 权 重 是 0.8。 
权重 表示 用 户 属 性 程度 的 强 弱 ， 数 值 越 大 程度 越 强 。 因 为 关系 图 网 络 中 的 输入 数据 点 役 此 
相连 ， 可 以 把 整个 关系 图 网 络 通 过 通联 图 表示 出 来 ， 如 图 8-18 所 示 。 
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Lionel 


信用 用 户 
RETEA 





图 8-17 信用 指数 图 8-18 关系 图 网 络 














在 这 份 数 据 集中 我 们 只 知道 部 分 几 户 的 信用 打 标 状 锅 , 希望 通过 这 部 分 标 人 答对 全 网 用 
户 的 信用 指标 进行 预测 ， 所 以 可 以 推 师 出 这 是 一 个 半 监 督 场景 的 问题 。 义 因为 数据 集 是 一 
个 关系 图 网 络 数据 集 ， 基 于 这 样 的 前 提 条 件 ， 选 用 标签 传播 算法 最 为 合理 ， 因 为 标签 传播 
惑 是 解决 天 系 属性 传播 的 半 监 丢 机 天 学 习 算 法 。 


以 上 分 析 的 归纳 如 下 。 


。 因为 古 部 分 数据 打 标 的 场景 , 希望 通过 部 分 打 标 数据 对 全 量 数 据 进行 预测 , 这 是 一 
JW MZ ARX GA TZ] ESE 
| Aa pee dB 



































。 数据 为 点 边 相连 的 天 系 图 状 数据 ， 需 要 选择 天 系 图 鼻 法 。 








e 其 于 以 上 两 点 选择 标签 传播 算法 。 


下 面 介绍 如 何 搭建 这 个 实验 场景 。 


8.3.2. ”实验 搭建 
实验 的 逻辑 如 图 8-19 所 示 。 


在 本 案例 中 ,我 们 把 实验 拆 分 成 3 个 部 分 : 数据 源 、 获 得 最 大 联通 子 图 、 标 签 传播 算 
法 及 评估 。 下 面 分 别 介绍 每 一 部 分 的 功能 。 


C1) 数据 产 。 数 据 源 包含 两 部 分 ， 一 部 分 是 全 网 所 有 人 之 间 的 关系 数据 ， 通 过 “和信 员 
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数据 表 组 件 ” 表 示 ， 另 一 个 是 部 分 人 员 的 信用 指标 ， 通 过 “标记 数据 组 件 ” 表 示 。 将 这 两 
份 数据 分 别 作 为 标签 传播 算法 两 个 输入 桩 的 数据 产 。 





| | 
标签 传播 分 类 -1 © 


] 

| 

1 标签 传播 算法 及 评估 
i | 

l 


f 


| ~ 


L _@ iroa sos ©) 


8-19 金融 风 控 实验 逻辑 


(2) 获得 最 大 联通 于 图 。 最 大 联通 于 图 的 算法 虽然 在 前 面 的 文章 疫 有 介绍 ， 但 是 功能 
非常 容易 理解 ， 瓯 是 找到 关系 图 网 络 中 相互 连接 的 对 象 个 数 最 多 的 联通 图 。 例 如 , 在 图 8-20 
中 框 起 来 的 小 联通 子 图 束 是 需要 通过 最 大 联通 了 千 图 算法 排除 的 数据 。 


“最 大 联通 了 于 图 组 件 ” 的 输出 结 末 如 图 8-21 所 示 。 


























图 8-20 最 大 联通 子 图 图 8-21 最 大 联通 子 图 输出 
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这 个 组 件 输出 两 个 字段 ， 第 一 个 字段 是 所 有 的 天 系 图 网 络 中 的 对 象 ， 第 二 个 字段 是 每 
个 对 象 所 属于 的 天 系 团 伙 ( 这 里 面 每 个 团伙 用 一 个 内 部 对 象 代 人 于 ), 我 们 只 要 通过 以 下 SQL 
语句 把 最 大 的 团伙 挑选 出 来 即 可 。 








select nodel from ${tl} where grp id-'Noah'; 


Fk, RIMA Y rc AGDGHOT Ed. WR 8-22 Aran. 








8-22 最 大 联通 子 图 








(3) 标签 传播 算法 及 结 末 侠 佑 。“ 标 签 传播 分 类 组 件 ” 连 接 了 最 大 联通 于 图 以 及 部 分 
入 员 的 打 标 信息 ， 了 最 终 的 输出 结 朱 如 图 8-23 Bra. 

我 们 得 到 的 标 等 传播 算法 的 结 末 包 含 每 个 对 象 是 欺诈 用 户 的 概率 以 及 是 信用 用 户 的 概 
48, weight 数值 越 大 表明 概率 越 大 。 对 同一 个 用 户 而 言 ， 其 诈 权 重 与 信用 权重 的 和 为 1。 我们 
是 以 通过 “欺诈 权重 SQL 脚本 组 件 ” 把 每 个 用 户 和 是 欺诈 用 户 的 概率 抽取 出 来 , 如 图 8-24 所 示 。 





























WHE...  0.2264783897173419 
Ans. 3c 
， 0.7735216102826581 欺诈 用 户 


WYE...  0.34784053907648443 欺诈 用 户 0.8 
——Ó—— ins 欺诈 用 户 0.42059743476528927 
WHE...  0.2938277295951075 


= 欺诈 用 户 0.34784053907648443 
信用...  0.7061722704048925 


(8... 欺诈 用 户 0.3113287445872401 
信用 .… 欺诈 用 户 0.2938277295951075 


EA... Py 
欺诈 用 户 0.24091136964145973 
欺诈 ...。 0.24091136964145973 


(8m. E: 0.7590886303585404 欺诈 | BF: 0.2264783897 1 7341 9 


图 8-23 标签 传播 分 类 算法 结 图 8-24 欺诈 用 户 数据 
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通过 上 和 面 的 操作 就 可 以 拿 到 整个 关系 图 网 络 中 每 个 用 户 的 欺诈 指数 ， 那么 这 个 指数 束 
可 以 用 来 帮助 金融 机 构 进行 金融 业务 的 风险 控制 。 





8.3.3 小 结 





本 条 例 通 过 标签 传播 算法 以 及 最 大 通联 和 子 图 解决 了 一 个 半 监 悄 场 景 下 的 金融 风险 控 
制 问题 。 随 着 互联 网 数据 的 积 素 以 及 人 物 间 网 络 关 联 的 打通 ,关系 图 网 络 鼻 法 的 应 用 已 经 
越 来 越 三 汉 ， 特 别 是 在 金融 风 控 或 者 社区 天 系 挖 据 等 万 面 。 和 而 望 可 以 通过 本 案例 的 介绍 ， 
为 大 家 普及 天 系 图 网 络 的 应 用 。 














9.4 新 闻 文 本 分 析 








互联 网 上 有 众多 用 户 , 每 天 都 有 大 量 的 媒体 资讯 产生 ,为 了 更 有 效 地 把 资讯 推送 给 
标 用 户 , 往往 需要 对 大 量 的 文本 信息 进行 分 类 处 理 。 传 统 的 互联 网 媒体 大 多 都 是 通过 人 工 
识别 的 方式 把 新 闻 资 料 按照 类 别 分 类 ,但 是 随 着 近年 来 互联 网 数据 量 的 增 大 ， 对 文本 目 动 
打 标 和 分 类 的 需求 日 益 增 加 。 本 案例 通过 第 5 章 介绍 的 TF-IDF 以 及 LDA 算法 对 文本 进行 
了 打 标 和 分 类 操作 。 下 面 介 绍 新 闻 文 本 分 析 案 例 。 









































8.4.1 场景 解析 


本 案例 的 场景 是 通过 机 带 学 习 算 法 解决 文本 分 析 的 两 个 币 见 场景 。 其 一 是 将 新 闻 文 本 进 
行 目 动 打 标 , 可 以 理解 成 捉 取 文章 中 的 关键 字 。 态 一 个 场景 是 新 闻 的 目 动 分 类 ,把 新 闻 按 用 
各 目的 类 列 ( 如 女性 、 体 育 和 军事 等 ) 目 动 分 类 ， 下 面 介绍 如 何 抽 家 这 个 文本 分 析 的 场景 。 


数据 集 是 来 目 网 络 开 源 的 新 闻 效 据 集 ， 如 图 8-25 Aran. 


^ 



































到 1 0 个 城市 的 男人 最 有 魅力 基因 我 来 说 两 句 广州 男人 : 爱 拼 才 会 赢 无 可 否认 ， 广 州 男人 发 了 ， 广 州 


组 图 : BRS HAAR... 跳 转 至 : 页 1 2 / 1 8 我 来 说 两 句 北京 时 间 6 月 1 2 日 晚 ， 总 奖金 额 为 7 1. 
组 图 


BE. 王励勤 传闻 女友 大 比拼 小 爱 ..， — 跳 转 至 : 页 1 5 / 4 0 我 来 说 两 句 名 人 的 爱情 本 就 一 直 受 到 众人 的 关注 ， 尤 其 是 当 被 套 上 乒乓 球 奥 运 冠 军 和 
. “我 来 说 两 句 作者 : CF P 2 0 0 8 年 6 月 12 日 , 台湾 ,名模 外 型 亮丽 ， 却 不 一 定 比 一 般 人 更 慌 保 养 身 体 ， 

(ER ”北京 时 间 6 月 1 4 日 ，2 0 0 8 美国 高 尔 夫 公 开赛 第 二 轮 继续 展开 激烈 的 争夺 。 首 轮 结 束 后 ， 美 

“PES RHA) ”奥运 会 前 投入 .… 6 月 9 日 2 0 时 15 分 ,“ 中 星 九 号 "广播 电视 直播 卫星 在 西昌 卫星 发 射 中 心 成 功 发 射 。“ 中 星 九 号 "是 中 民 


Ex: 利 百 特 到 访 观澜 湖 球 会 ”全体 ..， 来源: 体育 体育 讯 ”6 月 2 日， 观澜 湖 高 尔 夫 球 会 在 乡村 俱乐部 召开 新 闻 发 布 会 ， 欢 迎 高 坛 教 父 、 被 誉 为 
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数据 集 的 字段 说 明 见 表 8-4。 


表 8-4 字段 说 明 
category 体育 、 女 性 、 社 会 、 军 事 、 科 技 等 
title 标题 新 闻 标题 


通过 数据 集 的 展示 可 以 先 来 了 解数 据 格 式 ，category HACER (ak ACES 
用 来 做 结果 判断 ， 不 参与 训练 ， 本 文 只 通过 文章 内 容 目 动 分 类 )。 其 中 还 有 两 个 字段 分 别 
Fe CEL ppl (title) 和 内 容 (content )。 接 下 来 抽象 这 个 案例 的 场景 ， 文 本 打 标 其 实 融 是 
抽取 出 最 可 以 代表 每 一 篇 文章 的 关键 词 ,了 最 简单 的 方式 应 该 是 挑选 出 在 本 遍 文 章 中 出 现 数 
量 多 的 词语 而 在 其 他 文章 中 出 现 相 对 较 少 的 词语 , 那么 这 些 词语 可 以 代表 这 一 遍 文 昔 的 个 
性 。 这 一 场景 可 以 通过 TF-IDF 算法 来 解决 ( 详细 介绍 参考 第 5 章 )。 
























































处 理 文 章 分 类 的 场景 ， 其 实 是 先 将 文章 按照 语义 转化 成 向 量 ， 然 后 通过 向 量 距 离 ， 找 
出 距离 相近 的 那些 文章 ， 文 草 向 量 距 离 越 小 则 表示 含义 越 相近 。 按 照 向 量 距 离 实现 文章 分 
类 的 方法 很 多 ， 本 案例 选用 LDA 主题 模型 来 实现 。LDA 可 以 找 出 输入 数据 产 全 部 文章 中 
一 共 出 现 的 主题 ,假设 有 A、B、C、D 共 4 个 主题 ， 那 么 如 果 文 章 甲 包含 A、B、C 共 3 
Sapa, ME CAGE B、C， 文 章 肉 包含 主题 D， 那 么 我 们 可 以 大 致 判定 文章 甲 和 乙 
的 语义 相近 ， 因 为 这 两 个 文章 的 主题 交集 比较 多 ， 那 么 文章 申 和 乙 就 很 有 可 能 是 同一 种 类 
HY SCE 


以 上 思路 总 结 如 下 。 
e 提取 关键 词 ， 可 Vi 



































(Se 


TF-IDF 找 出 每 扁 文 草 中 最 有 个 性 化 的 关键 词 。 





Sa 


用 
。 对 文章 进行 分 类 ,选用 LDA 算法 找 出 每 扁 文 章 的 主题 ， 并 且 通 过 主题 代 谷 文章 ， 
把 主题 向 量化 然后 通过 K-means 算法 来 进行 聚 类 ， 找 出 文章 的 最 线 分 类 。 


下 面 介绍 实验 的 搭建 方案 。 





8.4.2 ”实验 搭建 


实验 的 逻辑 如 图 8-26 所 示 。 
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我 们 把 整个 实验 的 流程 切 制 成 3 个 部 分 ,分别 是 数据 预 处 理 及 分 词 、 关 键 词 捉 取 和 文 
划分 类 ， 现 在 分 模块 介绍 一 下 这 些 功能 。 








C1) 数据 预 处理 及 分 词 。“ 增 加 序号 列 组 件 ” 功 能 把 每 个 文章 增加 序号 列 作为 文章 的 
唯一 标识 。 通 过 “Split word” 组 件 对 文章 的 content FRIET, 分 词 结 来 如 图 8-27 
所 示 ， 每 个 词 之 间 通 过 空格 进行 分 隔 。 





title a content a 


全 国 1 0 个 城市 的 男 ...。 我 来 说 两 句 广 州 男 人 : ZHASH... 


图 : SERA... BS: 页 12 / 18 我 来 说 两 句 ... 
a 


图 : 王励勤 传闻 女 ...。 Witz. 15/403 Xi PS 8)... 
FREER BRK... 我 来 说 两 句 作 者 : CFP 20084... 
BM: 美国 高 尔 夫 公 ... BAR ”北京 时 间 6 月 14H, 20... 
“PETS RAD... 6H9H20811553, “PEAS”... 
图 文 : HERA. RR: 体育 体育 讯 ”6 月 2 日 WA... 
历数 跑 进 3350035... 阿兰 - 约翰 逊 他 是 当今 男子 1 10 米 栏 ... 


组 图 : 巴西 历史 首 负 ... 来 源 : 体育 【 点 击 图片 进入 下 一 页 ... 
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我 们 看 到 content 字段 的 分 词 结 未 中 有 很 多 的 标点 符号 ， 这 些 标点 符号 对 结 采 会 有 一 
定 的 干扰 , 因为 标点 符号 也 会 被 当 作 一 个 词 来 被 算法 处 理 , 但 是 标点 符号 义 很 难 包 含意 义 。 
为 了 排除 标点 从 号 市 来 的 十 扰 ， 通 过 “ 集 用 词 过 小组 件 ” 可 以 把 标点 从 写 处 理 挥 ,得 到 最 
终 的 分 词 以 及 过 滤 结 果 如 下 ( 抽取 一 条 新 闻 )。 
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6 月 9 日 20 时 15 分 FE 九 号 广播 电视 直播 卫星 在 西昌 卫星 AH 中 心 
BUE 发 射 中 星 九 号 是 中 国 卫 星 通信 集团 公司 向 法 国 AGB WK 尼 亚 宇航 
公司 订购 一 3A 广播 电视 直播 卫星 将 用 于 开展 AXE] 电视 书目 直播 到 P 传输 
业务 新 华 社 记者 陈 树 JR & 新 华 网 西昌 6 月 9H 电 PH 7,5 广播 电视 直 
播 卫星 9 日 20 时 15 分 在 西昌 卫星 Ad 中 心 成 功 AH 卫星 将 于 北京 奥运 会 
前 投入 使 用 届时 TH 家 庭 将 能 直接 收看 奥运 会 盛况 PE 九 号 是 中 国 
卫星 通信 集团 公司 向 AB AGB WR 尼 亚 宇航 公司 订购 卫星 装载 有 22 
个 Ku 转发 器 功率 为 10700 瓦 设计 寿命 15 年 将 用 于 我 国 电视 节目 直播 到 
P 传输 业务 用 于 AA KES 号 C 运载 火 租 由 PA 航天 科技 集团 公司 所 
属 PH 运载 火箭 技术 研究 院 研制 今天 几 天 卫星 将 由 法 方 控制 定点 于 东 
经 922 度 亦 道 上 空 





(2) 关键 词 扣 取 。 通过“ 词 频 统计 组 件 ” 可 以 得 到 每 户 文 
草 出 现 的 词 以 及 该 词 的 个 数 ， 结 末 如 图 8-28 Pr. 


数据 通过 “TF-IDF 组 件 ” 可 以 得 到 每 篇 文章 中 每 个 词 的 
TF-IDF 值 ， 这 个 值 能 够 表示 每 个 词 是 否 可 以 代表 这 篇 文章 的 
个 性 。TF-IDF 的 值 越 大 ， 表 示 这 个 词 对 这 篇 文章 的 代表 力 越 
强 ( 算法 细 市 评 见 第 5 章 )， 结 果 如 图 8-29 Br. 




















8-28 ”文章 词 频 统计 





v 


4.31... 0.3024991671904421 


.  0.26399064760441293 


1... 0.09574462345406858 


1... 0.07475203195085629 





1... 0.07475203195085629 
8-29 TF-IDF 结果 


通过 TF-IDF RI "SAP" "JUAN" "ZA" “He” yx 4 aA tfidf fixes, ue 
说 这 4 “Saleh he MEK, € PAIR RSP, RTF 














我 来 说 两 句 广州 男人 : 爱 拼 才 会 原 无 可 和 否认， 广州 男人 发 了 ， 广 州 男人 财 大气 粗 ， 似 
乎 分 分 秒 秒 都 在 挣 钱 。 广州 男人 形 办 并 不 高 大 ,皮肤 也 睦 黑 ,但 他 们 用 去 华 私家 车 、 别 里、 
名 牌 西 服 、 名 牌 衬 衣 、 名 牌 皮鞋 所 包装 出 的 气派 ， 却 是 令 许 多 女人 心仪 不 已 的 。 无 牌 不 罕 ， 
AERA, 玩 的 就 是 人 民 币 ， 这 还 不 容易 吗 ? 广州 男人 有 一 点 点 “ 坏 ”， 可 话 又 说 回来 ,“ 男 
RFK, KARR” Gh! 而 被 天 南 地 北 蜂 涌 而 至 的 女人 所 爱 的 广州 男人 当然 是 有 魅力 的 男 
人 。 就 目前 国内 行情 而 言 ， 广 州 男 人 的 硬件 设施 是 不 容 置疑 的 ， 所 以 有 魅力 的 广州 男人 有 
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一 点 点 “ 坏 ” 就 更 有 魅力 了 。 喜 欢 多 金 又 气派 的 美 届 ， 勇 敢 地 上 吧 ， 广 州 男人 是 很 博爱 的 
H! (责任 编辑 : 徐 勇 

(3) 文章 分 类 。“ 三 元 组 转 KV 组 件 ” 是 文本 向 量化 的 常用 算法 ， 原 理 是 把 文本 数据 
转 成 K:V 格式 展示 ， 结 果 如 图 8-30 所 示 。 


append, id 表示 每 一 个 文档 的 唯一 标识 ，key_value 通过 K:V 格式 表示 ， 把 文档 中 的 每 
一 个 词 都 通过 一 个 数字 编码 作为 KV 中 的 K， 把 这 个 词 在 这 个 文档 中 的 出 现 次 数 作为 Vo 





























^ 


337:1,412:1,667:3,861:1,1096:2,1582:1,1693:1,2109:1,2283:1,2371:1,2659:1,3054:3,3092:1,3232: 


10:1,127:1,436:1,675:1,891:1,915:1,1096:2,1468:1,1757:1,2013:1,2109:1,2562:1,2783:1,3054:1,34 
228:1,339:1,394:1,430:2,539:3,862:1,926:1,1224:1,1421:1,1488:2,1528:1,1670:2,1822:1,1909:2,2 
10:1,18:1,200:1,387:1,412:1,436:1,450:2,472:4,555:2,563:2,637:1,639:2,667:1,813:1,856:1,913:1, 
1582:1,3288:1,3702:1,5582:1,5932:1,6077:1,6249:1,6430:1,6529:1,6734:1,7636:1,8888:1,9418:1,8 





图 8-30 MASE KV 格式 


“PLDA ”组 件 可 以 从 全 部 文章 中 的 所 有 词语 中 找 出 N 个 作为 主题 , PA TL RE 
文章 属于 这 N 个 主题 的 权重 ， 生 成 结 有 末 如 图 8-31 所 未 。 














0.0015625 0.0015625 0.0015625 0.0015625 0.0171875 0.4234375 0.0015625 0.0015625 0.0015625 0.0171875 0.0328125 0.0015625 
0.001298... 0.014285... 0.001298... 0.066233... 0.001298... 0.481818... 0.001298... 0.001298... 0.014285... 0.014285... 0.0012987... 0.0012987.. 


0.001020... 0.001020... 0.052040... 0.001020... 0.001020... 0.052040... 0.011224... 0.001020... 0.001020... 0.001020...  0.0010204..  0.0010204... 


0.000884... 0.000884... 0.000884... 0.133628... 0.000884... 0.000884... 0.000884... 0.000884... 0.000884... 0.000884...  0.0008849.. 0.0008849... 


0.003571... 0.003571... 0.003571... 0.003571... 0.003571... 0.003571... 0.003571... 0.003571... 0.003571... 0.003571...  0.0035714..  0.0035714.. 
0.001408... 0.001408... 0.001408... 0.001408... 0.001408... 0.212676... 0.001408... 0.001408... 0.001408... 0.029577... 0.0014084... 0.0014084... 
0.124626... 0.020149... 0.005223... 0.000248... 0.000248... 0.089800... 0.002736... 0.000248... 0.000248... 0.000248...  0.0002487.. 0.0077114... 
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到 这 一 步 ， 已 经 通过 PLDA 算法 将 文本 内 容 按照 主题 维度 向 量化 了 ， 接 下 来 通过 
K-means 算法 ， 把 每 篇 文章 对 应 的 主题 ( topic ) 作为 特征 进行 聚 类 。 向 量 距 离 近 的 文章 就 
是 主题 抄 近 的 文章， 也 残 是 内 容 相近 的 文章。 因为 我 们 假说 同类 文章 如 军事 新 闻 ， 它 们 的 
主题 一 定 是 相近 的 ， 于 十 惑 能 通过 这 种 手段 实现 文章 的 目 动 分 类 。K-means 聚 类 出 及 的 结 
朱 有 两 个 字段 ， 如 图 8-32 所 示 。 





























docid 表示 文章 的 唯一 标识 ，cluster_ index #0 922255, cluster. index 相同 的 文章 
征 聚 类 结 末 相同 的 文章 。 通 过 图 8-32 的 聚 类 结 末 可 以 看 到 文章 ID 为 113、118 和 205 的 3 
扁 文 章 同属 于 类 别 cluster. index jf 2， 通 过 SQL 语句 把 这 3 篇 文章 拿 出 来 看 一 下 十 否 真 的 
属于 同一 类 的 文章 ， 结 果 如 图 8-33 所 示 。 
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R| 8-32 RX% 图 8-33 聚 类 结 




















最 终结 来 古 两 篇 体育 类 文章 ,一 篇 财经 类 文章 ， 结 玉 有 一 定 广 差 ， 可 以 通过 增加 训练 
数据 量 或 者 增加 PLDA 的 主题 数量 来 提升 模型 精度 ， 这 里 束 个 青 过 多 介绍 了 。 




















8.4.3 小 结 





本 丰 中 我 们 主要 介绍 了 文本 分 析 的 应 用 ， 通 过 LDA 算法 对 新 闻 文 本 做 了 分 类 操作 ， 
又 利用 TF-IDF 进行 文本 的 打 标 操 作 。 这 里 对 文本 的 处 理 只 是 为 了 带 助 读 者 建立 最 基础 的 
概念 , 用 到 的 都 是 一 些 比较 基础 的 文本 组 件 。 文 本 分 析 相 对 之 前 的 分 类 和 到 类 场景 ， 定 一 
个 更 偏 癌 于 业务 的 场景 ， 所 以 在 实际 的 算法 搭建 过 程 中 要 更 多 地 考 感 业务 需求 ， 特 别 挟 对 
文本 特征 的 处 理 方面 。TEF-IDF 和 LDA 有 非常 多 的 用 法 ， 文 本 打 标 和 分 类 也 有 很 多 不 同 的 
解法 ， 这 些 虱 需要 通过 更深 入 地 去 了 解 业 务 和 算法 才能 继续 同 下 探索 。 


























8.5 AMV EEK AHL 

















贷 球 发 放 是 农业 发 展 链条 中 非常 重要 的 一 坏 ， 农 民 在 每 一 年 耕种 之 前 因为 缺乏 购买 
MY. HIER ALA Rae, ESSER Tait, FAFAFA JA PETIA GE 
那么 作为 出 资方 ， 银 行 需要 评估 每 一 个 信贷 农户 的 还 贷 能 力 ， 然 后 才能 决定 发 放贷 区 的 
金额 。 本 市 通过 线性 回归 算法 预测 农民 的 还 球 能 力 , 从 而 实现 农业 贷 葡 发 放 预 测 的 案例 。 
































8.5.1 场景 解析 


农业 贫 球 的 场景 介绍 如 下 ， 有 每 一 家 农户 的 特征 属性 ， 这 些 属性 包含 了 用 户 的 作物 种 
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植 面积 、 作物 种 类 、 大 气 情 况 以 及 用 户 的 历史 还 球 金 额 。 我 们 通过 这 些 属 性 来 做 线性 回归 ， 
然后 生成 预测 模型 ， 再 利用 这 个 模型 去 预测 新 增值 贫 人 的 还 球 能 力 ， 银行 可 以 通过 预测 值 
判断 古 舍 同 新 增 信贷 和 人 放贷。 下 面 介绍 具体 的 数据 和 场景 。 


本 条 例 的 数据 来 目 UCI 开源 数据 集 ， 有 共 体 情况 如 图 8-34 所 示 。 














330729 "wheat" *decommis... 74703. 1 
734118 "maize* "arable dev* 245354 


231965 ‘rapeseed’ "decommis... 84213 


625251 "potatoes" "decommis... 281082 


621148 "wheat" "decommis... 122006 


445785 "maize* "arable dev* 122135 








211605 "maize* 'arable dev* 68969.2 


8-34 ”贷款 数据 








这 份 数据 的 字段 信息 见 表 8-5。 


表 8-5 字段 信息 
* 段 名 i 
region North, middle, south, MEEI RM 
farmsize 土地 面积 
landquality 土地 质量 数值 越 大 表示 土地 质量 越 好 
farmincome 收入 年 收入 
= MEIRA 
claimtype 贷款 类 型 Decommiss 和 Arable dev 两 种 
claimvalue 贷款 金额 贷款 金额 


通过 以 上 数据 和 业务 逻辑 ， 下 而 进行 场景 解析 。 


1) 站 完 ， 我 们 的 场景 是 通过 用 户 的 历史 行为 ( 如 历史 数据 的 多 维特 征 和 最 终 还 信人 金 
AM) 来 训练 模型 ， 通 过 这 个 模型 对 新 增 的 贫 丈 人 的 还 贫 能 力 进行 预测 。 其 实 这 尽 一 个 监督 
学 习 的 场景 ， 因 为 已 知 了 特征 以 及 还 贫 金 额 (目标 列 )。 对 具体 金额 的 预测 可 以 通过 一 个 
回归 算法 来 处 理 ， 这 里 选用 线性 回归 ( 算法 评 情 参考 5 ET), 


SF 
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2) 通过 数据 容 图 可 以 看 到 ， 部 分 数据 是 半 结 构 化 数据 ， 需 要 进行 特征 抽 角 。 


3) 通过 线性 回归 算法 得 到 预测 值 之 后 ， 需 要 制定 们 贫 规则。 例如， 我 们 预测 蘑 信 贷 
用 户 的 还 贷 金 视 是 nm, 申请 的 贫 于 金额 是 m WR nzm, FAVA ARG, UWAR n<m 
则 不 发 放 。 


现 对 该 业务 场景 总 结 如 下 。 











。 根据 历史 标记 数据 学 习 并 对 货 于 金额 进行 预测 ， 监 督学 习 场景 ， 选 择 线 性 回归 算法 。 
© 数据 为 半 结 构 化 数据 ， 需 要 进行 特征 抽 角 。 


。 根据 预测 的 还 贫 金 额 和 贫 球 申 请 金额 对 比 ， 判 断 是 盏 信 贫 。 

















通过 上 述 的 场景 抽 家 和 结 灯 ， 下 而 来 进行 具体 的 实验 场景 搭建 。 


8.5.2 ”实验 搭建 


实验 的 逻辑 如 图 8-35 HTZ 








训练 集 — HR 


Q sans- | ©) eo SQL 脚本 -2 ©) 








中) 训练 和 预测 


di + * 一 、 
© a @) 











a P m - — S 
@ ze onset O) 





8-35 农业 贷款 预测 逻辑 








我 们 把 整个 实验 流程 按照 纵 同 拆 分 成 了 数据 集 、 训 练 和 预测 、 模 型 评估 以 及 放贷 人 人 员 
jme 4 个 部 分 ， 下 面 分 别 介绍 这 4 个 模块 的 功能 。 
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C1) 数据 产 。 数 据 产 分 为 两 个 部 分 。 一 部 分 是 训练 ， 集 用 于 训练 模型 ， 通 过 “贷款 训 
练 集 组 件 ” 表 示 ， 训 练 集 的 数据 是 农民 贫 蒜 情况 的 历史 数据 WE 8-36 )。 男 一 
测 集 ， 数 据 与 训练 集 数 据 相 似 ， 上 只 是 没有 字段 daimvalue。 





330729 "wheat" "decommis... 
734118 "maize" 'arable dev" 245354 


231965 'rapeseed' "decommis... 84213 


625251 "potatoes" "decommis... 281082 


621148 "wheat" "decommis... 122006 





445785 "maize* "arable dev* 122135 





8-36 ”原始 训练 数据 


因为 训练 集 的 数据 含有 半 结 构 化 的 字段 ， 所 有 需要 进行 特征 抽象 ， 对 id 和 name 这 种 
标识 符 字 段 不 做 处 理 , Region, maincrop 和 claimtype 这 种 有 具体 含义 的 字段 需要 进行 一 层 
抽象 逻辑 。 具 体 执行 方法 使 用 以 下 SQL 语句 。 











select id, (case region when '"north"' then 0 when '"midlands"' then 1 else 2 end) 
as region num, farmsize,rainfall,landquality,farmincome, (case claimtype when 


'""decommission land"' then 1 else 0 end) as claimtype num,claimvalue from ${tl}; 





该 方法 中 把 region 按照 地 域 从 北 到 丙 抽 象 成 0、1、2, 把 二 值 类 的 数据 claimtype 抽象 
成 0 和 15 maincrop 的 这 个 数据 因为 特征 比较 难处 理 ， 而 且 意 义 不 大 ， 我 们 在 这 个 案例 中 
把 这 个 特征 去 挥 ， 最终 的 抽象 完结 果 如 图 8-37 所 示 。 





330729 74703.1 
734118 245354 
231965 84213 


625251 281082 


621148 122006 


445785 122135 





211605 68969.2 


8-37 特征 抽象 结 


(2) 训练 和 预测 。 把 训练 数据 集 输 入 “线性 回归 组 件 ”， 因 为 线性 回归 坪 监 督学 习 ， 
所 以 要 区 分 特征 列 和 目标 询 。“ 线 性 回归 ”组 件 连 接 预 测 组 件 ， 这 梓 束 能 通过 生成 的 模型 
对 新 借贷 人 的 还 贷 能 力 进 行 预测 。 训 练 结束 后 , 在 菜单 栏 的 模型 选项 中 查看 模型 , 如 图 8-38 
Hie 
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linearRegressionOutput 


字段 各 = 


weight a 
farmsize -4.862402541857178 
landquality -25.7675288711722 
rainfall 126.2350039796762 
farmincome 0.3029515859024889 
region_num -2046.07 4253730386 
claimtype_num $086-4.46653581344 


常量 24.5368272066455 





8-38 线性 回归 输出 模型 





这 些 参 数 对 应 的 是 线性 回归 公式 中 的 4&，&，4，…， 季 量 对 应 的 公式 中 的 C。 公 式 如 下 : 


h(x) =C+OX%,+6,x, +°° Ox, 








(3) 模型 评 佑 。 有 了 预测 模型 之 后 ， 我 们 还 需要 一 些 指 标 来 评 们 模型 的 质量 ， 这 个 可 
以 通过 “回归 模型 评估 组 件 ” 来 实现 。 跟 其 他 监督 学 习 的 模型 评估 原理 相同 , “回归 模型 
评估 组 件 ” 也 是 通过 真实 值 和 目标 值 的 比 对 来 硝 定 模型 的 质量 。 但 是 与 传统 分 类 算法 的 评 
佑 人 不同 的 是 ,传统 分 类 算法 的 预测 结 末 是 每 一 个 对 象 归属 的 类 别 正确 与 从， 只 需要 考虑 下 
硝 率 相关 的 指标 ， 丝 性 回归 的 结 末 是 一 个 预测 值 ， 这 个 值 和 真实 值 的 比较 可 能 没有 分 类 算 
法 的 评估 这 么 直观 。 但 是 阿里 云 机 妖 学 习 中 用 了 一 连 串 的 指标 来 评估 线性 回归 的 模型 精 
RE, PHARE 8-39 Fras. 




































































fa 


31399.64149556111 


26.195954432 15006 


2282664239.11398 


1.024486622461561 


1.049572839602696 


ATTTT.23557421442 


2229374.546184839 


162069160977.0926 


730613758528.7505 


696105817491.7295 





8-39 线性 回归 评估 





具体 的 评估 参数 解释 如 图 8-40 所 示 。 





MAPE 
count 
yMean 


predictionMean 





8-40 BARE 


8.5 农业 贷款 发 放 预 测 


描述 


总 平方 和 

误差 平方 和 

回归 平方 和 

‘| LAB 

多 重 相关 系数 

均 方 误差 
均 方 根 误 差 

平均 绝对 误差 
平均 误差 
平均 绝对 百 分 误 差 
行 数 
原始 因 变 量 的 均值 
预测 结果 的 均值 


通过 对 照 每 个 指标 的 含义 可 以 判断 线性 回归 模型 的 准确 度 。 


( 4) BULA TAME. XPERIA LA, Thali HAT 
能 力 偿还 的 人 群 。 通 过 “合并 列 组 件 ” 把 每 个 借贷 人 的 贷 区 申请 值 和 通过 模型 
预测 出 来 的 还 贫 能 力 值 合并 ( 放 到 同一 张 表 下 ， 方便 观察 )， 生 成 数据 表 ， 如 图 8-41 Pr. 


AR meme 
借 蒜 金额 是 有 


172753 
93415.4 
46800.2 
131728 
89040.8 
135493 
88906.8 
147159 
277397 


67547.3 


claimvalue 字段 是 每 个 id 对 应 


164511.85895537303 
146448.39555043462 
41121.0399541547 
192494.66399457667 
76077.71307747645 
103273.7593315517 
136081.22401451087 


144539.8597758185 


466476.6439543026 


130656.17622394017 





8-41 ”实验 搭建 


贷 蒜 人 的 贫 球 申请 金额 ，prediction_score 是 通过 线性 回 














归 算 法 预测 每 个 人 的 还 贫 能 力 。 作 为 放贷 者 ， 只 要 保证 每 个 贫 蒜 人 的 还 球 能 力 大 于 信贷 人 金 
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额 即 可 ， 于 是 通过 “过 沽 与 映 映 ”组 件 找 出 符合 条 件 的 借贷 人 ， 命 令 如 下 。 





prediction score-claimvalue>=0; 





BAS AT AOR API, SUAS 8-42 PR. 


93415.4 146448 .39555043462 
131728 192494.66399457667 
88906.8 136081 .22401451087 
277397 466476.6439543026 

67547.3 130656.17622394017 


345394 402202.53455569595 


247045 257675.24355828302 


66630.5 105347.51838292938 
99655.4 178912.34749839682 


81138.5 124768.28627118697 





图 8-42 发 放贷 款 人 员 


VA ERE TEE PAW STK AA So, 通过 线性 回归 算法 有 监督 地 训练 了 预测 
模型 ， 通 过 模型 对 信 贫 人 的 还 蒜 能 力 进行 预测 ， 并 且 第 选 出 适合 放贷 的 人 群 。 


8.5.3 小 结 





本 各 例 通 过 线性 回归 算法 实现 了 农业 贷 球 发 放 的 积 例 , 通过 对 农户 的 历史 贫 球 与 还 贷 
状况 进行 模型 训练 ， 生 成 线性 回忆 模型 并 且 对 新 增 贫 区 用 户 的 还 贷 能 力 进 行 预测 。 线 性 回 
归 是 机 带 学 习 算 法 中 一 种 比较 容易 理解 的 算法 ,能 解决 很 多 具体 数值 预测 的 场景 ， 在 股 宗 
分 析 和 黄金 价格 分 析 等 线性 场景 下 都 有 着 不 错 的 应 用 。 








如 果 要 人 们 评选 当今 最 受 关 注 话题 的 ToplO, 9538 ÀE BERE ALE. Sete SAM 
出 行 和 娱乐 ， 对 和 人们 的 健康 也 有 很 大 危害 。 如 未 人们 能 通过 机 林学 习 算法 的 手段 找 出 引发 务 
竹 天 气 的 真 凶 ， 这 将 对 治理 务 胜 有 特别 大 的 帮助 。 下 面 介 绍 如 何 通过 自 法 来 解决 这 个 问题 。 


























8.6.1 场景 解析 


国家 气 骨 局 每 天 都 会 公布 当日 的 天 气 状 况 ， 每 个 地 区 的 各 种 污染 物 的 指标 ， 只 需要 找 
出 哪 坚 污染 物 指标 跟 务 王 天 气 的 关联 度 最 大 ( 即 哪 些 污染 物 容易 造成 pm2.5 的 数值 超标 )， 
就 可 以 找到 引发 务 宪 大气 的 原因 。 


本 数据 采集 了 2016 午 全 年 的 北京 空气 指标 。 具 体 情况 如 图 8-43 所 示 。 
































图 8-43 ZRNJE 








数据 集 的 字段 摘 述 见 表 8-6。 


表 8-6 字段 描述 
time 日 期 ， 精 确 到 天 String 
hour 表示 的 是 时 间 ， 第 几 小 时 的 数据 String 


pm2 pm2.5 的 指标 String 
pml0 pm10 的 指标 String 


SO2 二 氧化 硫 的 指标 String 


co 一 氧化 兢 的 指标 String 
no2 二 氧化 氨 的 指标 String 


通过 以 上 数据 可 以 得 到 以 下 分 析 。 
1) 这 份 数据 的 质量 很 蜗 ， 全 部 是 结构 化 数据 ， 不 需要 做 特征 抽象 的 处 理 。 


2) 数据 集中 的 pm10、so2、co 和 no2 这 4 个 字段 可 以 作为 特征 ，pm2 为 最 终 的 目标 
队列 。 
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3) 因为 需要 解决 的 场景 羡 筋 才 的 成 因 ， 所 以 可 能 根据 一 些 统计 信息 拿 到 一 些 结论 。 
利用 你 辑 回归 的 算法 特性 也 可 以 分 析出 特征 对 日 标 值 的 影响 ( 评 见 第 4 革 关 于 特征 重要 性 
评估 的 内 容 )。 如 条 要 使 用 逻辑 回归 ， 我 们 需要 把 试验 场景 改造 成 二 分 类 场景 ， 在 训练 的 
时 候 需 要 把 目标 列 数据 抽象 成 0 和 1， 这 样 才 能 构成 二 分 类 的 场景 的 训练 数据 。 


4) 因为 是 二 分 类 问题 ， 有 多 种 算法 可 供 选择 ， 我 们 可 以 选择 逻辑 回归 以 及 随机 和 森林 
两 个 算法 并 行 处 理 ， 这 样 做 的 好 处 是 可 以 对 比 一 下 哪个 算法 处 理 这 份 数 据 集 的 效 末 更 好 。 


现 对 以 上 思路 总 结 如 下 。 
。 训练 数据 是 结构 化 数据 ， 选 用 逻辑 回归 进行 特征 重要 性 的 评 售 。 


e pml0, so2, co, no2 作为 特征 列 ，pm2 作为 目标 蜀 。 给 pm 设置 一 个 国 值 ， 构 成 
正 负 打 标 样本 ， 把 实验 划分 为 二 分 类 的 场景 。 


。 针 对 二 分 类 场景 ， 用 户 可 以 选择 逻辑 回归 以 及 随机 森林 两 个 算法 来 比较 效果 。 

































































8.6.2. SECUS TAE 


实验 逻辑 如 图 8-44 所 示 。 





© wumai_data-1 ©) 








i M ` € aenUtEMa. 
Ge 直方 图 (多 字段 -1 O) eo 类 型 转换 -1 
统计 分 析 数据 导入 及 预 处 理 


Q suem ©) Osawa ©) 

















逻辑 回归 预测 及 分 析 








P- - =, 
(re) 远 辑 回 月 二 分 类 -1 ©) 











8-44 Bee ny Eig 
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qui 








图 8-44 中 把 整个 实验 拆 分 为 4 个 部 分 ,了 
林 预 测 及 分 析 、 泌 辑 回归 预测 及 分 析 ， 下 面 是 


C1) 数据 导入 及 预 处 理 。 数 据 源 如 图 8-45 
所 示 。 


4] A53 AN Bl ee BAN Bele TT. Pr 
以 用 “类 型 转化 组 件 ” 把 字段 调整 为 double 类 
型 ， 为 下 面 的 算法 计算 做 准备 。 通 过 “SQL H 
本 组 件 ” 把 目标 列 pm2 做 拆 分 处 理 ， 把 pm2.5 
小 于 200 的 对 象 的 目标 列 字 段 设置 为 0( 代表 非 


VERDE FARBE, $ it, RID SAT BEN LAR 
这 4 个 部 分 的 详细 介绍 。 





























重度 务 才 的 情况 )， 把 pm2.5 大 于 200 的 对 象 的 
目标 列 字 段 设 置 为 1 (RARER ) SQLi8 


AUS he 


select time,hour, 


Fiat “ya— 








—lUE2B TE" 做 去 


8-46 所 示 ( _c2 EITE A py) )。 


20160101 
20160101 
20160101 
20160101 
20160101 
20160101 
20160101 
20160102 
20160102 
20160102 
20160102 
20160103 
20160105 


023 AWA 析 。 统 计 分 析 模 块 使 用 了 两 个 组 件 


HUE", god 


这 两 个 组 件 可 以 探 


a 


0.24532224... 
0.25363825... 
0.28066528... 
0.30145530... 
0.33887733... 
0.38669438... 
0.41995841... 
0.45114345... 
0.50727650... 
0.58627858... 
0.68191268... 
0.74428274... 
0.06860706... 


(case when pm2>200 then 1 else 0 end) 





8-45 ”数据 源 





量 纲 处 理 ( 详 见 第 3 


a 


0.219178082129... 
0.315068493185... 
0.34246575342... 
0.38356164383... 
0.41095890410... 
0.43835616438... 
0.45205479452... 
0.47945205479... 
0.50684931 506... 
0.53424657534... 
0.53424657534... 
0.53424657534... 
0.02739726027... 


0.36956521739130427 
0.4782608695652173 
0.5217391304347825 
0.5434782608695652 
0.58695652 17391303 
0.6304347826086956 
0.6739130434782609 
0.7173913043478259 
0.8043478260869563 
0.8478260869565216 


0.8913043478260869 


0.8913043478260869 


0.06521739130434782 


8-46 数据 预 处 理 结 果 


BAGEL PARA. 直方 图 组 件 ” 的 结 有 末 如 图 8-47 所 示 。 








:Pm10,so2,co,no2 from ${t1}; 


革 )， 经 过 数据 预 处 理 后 的 数据 如 


0.43312101910828027 
0.49044585987261147 
0.5031847133757962 
0.5222929936305732 
0.5605095541401274 
0.5923566878980892 
0.6178343949044586 
0.6369426751592356 
0.6560509554140127 
0.6942675159235668 
0.7197452229299363 
0.732484076433121 
0.16560509554140126 





， 分 别 是 “直方 图 组 件 ” 和 “数据 视图 
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8-47 直方 图 结果 

















通过 直方 图 可 以 可 视 化 地 碍 看 不 同 数据 在 不 同 区 间 下 的 分 布 ， 通 过 这 组 数据 的 可 视 化 展 
现 , 我 们 可 以 了 解 到 每 一 个 字段 数据 的 分 布 情况 。 图 8-47 展示 了 pm2 这 个 字段 在 区 间 11.74 ~ 
15.61 出 现 得 最 多 , 有 430 次 。 也 就 是 说 在 2016 E, 大 部 分 时 间 中 北京 的 务 堵 指数 还 是 很 低 的 。 


通过 “数据 视图 组 件 ” 可 以 查看 不 同 指标 在 不 同 区 间 对 绪 末 的 影响 ， 如 图 8-48 所 未 。 
































8-48 ”数据 视图 








以 字段 no2 Avil, Æ 112.33 ~ 113.9 区 间 产 生 了 7 个 目标 列 为 0 的 目标 ，9 个 目标 列 为 
1 的 目标 。 也 就 是 说 当 no2 在 112.33 ~ 113.9 区 间 的 情况 下 ， 出 现 重 度 雾 攀 天 气 的 概率 非常 
大 。 焕 和 基尼 系数 是 表示 这 个 特征 区 间 对 日 标 值 的 有 影响， 数值 越 大 则 影响 越 大 ， 这 个 是 在 


























信息 量 层面 的 影 啊 。 


(3) 随机 和 森林 预测 及 分 析 。 在 处 理 分 类 问题 时 ， 我 们 通 闻 选取 多 个 算法 有 米 比 较 分 析 ， 
因为 针对 不 同 的 数据 集 ， 不 同 的 算法 可 能 会 市 来 不同 的 结 来 ， 先 来 看 一 下 随机 傈 林 的 计算 
结 末 。 将 数据 集 进 行 拆 分 ，80% 的 数据 用 来 训练 模型 ，20% 的 数据 用 来 做 预测 。 最 终生 成 
的 模型 可 以 在 模型 菜单 下 可 视 化 查看 ,选取 随机 森林 中 的 一 栋 树 米 看 一 下 ， 如 图 8-49 所 示 。 


























«0.544586 


«0.597826 





8-49 ”随机 森林 模型 


随机 森林 中 每 一 棵 树 都 代表 一 种 对 结果 分 类 的 思路 , 最 终 呈现 的 是 每 一 个 市 点 的 分 裂 
条 件 ， 图 8-49 中 的 co«0.594826 就 是 当前 市 点 的 分 裂 条 件 。 最 终 的 预测 准确 率 评 估 可 以 通 
过 二 分 类 评估 组 件 来 实现 ， 如 图 8-50 所 示 。 




















等 频 详细 信息 等 宽 详 细 信 息 








8-50 随机 和 森林 ROC 曲线 


最 终 的 AUC 值 约 等 于 0.99667, F1 值 高 达 0.9559， 说 明 还 是 非常 精准 的 。 
(4) 人 逻辑 回归 预测 及 分 析 。 逻 辑 回 归 采 用 跟随 机 森林 相同 的 预测 集 和 训练 集 ， 最 终 
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评估 结果 如 图 8-51 所 示 。 











8-51 逻辑 回归 ROC 曲线 











通过 ROC 曲线 可 以 看 出 在 不 考虑 调 参 的 情况 下 ， 随 机 森林 的 效果 会 更 好 一 些 ， 但 是 通过 
逻辑 回归 的 生成 模型 系数 可 以 分 析出 更 多 有 帮助 的 信息 。 小 辑 回归 的 模型 系数 如 图 8-52. 所 示 。 


逻辑 回归 二 分 类 











a 


18.32146628653672 


1.767062094833547 


-0.2519492790928399 


10.95221282178011 


-16.66654139199668 





8-52 ”逻辑 回归 模型 系数 


经 过 归 一 化 计算 的 逻辑 回归 算法 有 这 样 的 特点 ， 模 型 系数 越 大 表示 对 结 末 的 影响 越 
K, 系数 付 写 为 正 写 表示 正 相 天 , 负 号 表示 负 相 关 ( 详 见 第 4 草 特 征 重要 性 评估 里 的 介绍 )。 
在 本 例 中 ， 正 号 系数 里 pm10 和 no2 最 大 。pm10 和 pm2 只 是 颗粒 尺寸 大 小 不 同 ， 是 一 个 
包含 关系 ， 这 里 不 了 考虑 (pm2 包含 了 pm10), X PHBH NO. pm2.5 的 影响 最 大 。 
我 们 只 要 查阅 一 下 相关 文档 ， 了 了解 下 哪些 因 系 会 造成 NO; 的 大 量 排 放 好 可 找 出 影响 pm2.5 
的 主要 因 系 。 通 过 查找 一 些 论文 和 网 上 资料 可 以 得 到 结论 ，NO; 的 主要 来 源 是 发 电 | 和 和 汽 
车 尾气 。 这 样 束 通 过 算法 计算 出 了 影响 务 玫 天 气 的 主要 因 系 ,可 能 葡 定 由于 发 电 上 或 者 汽 
























































8.7 图片 识别 


车 尾气 释放 的 NO; 所 造成 的 。 


8.6.3 小 结 








本 案例 主要 针对 2016 全 年 的 北京 空气 指标 计算 影 响 务 疆 成 因 的 关键 因素 , 分 别 采取 
了 随机 森林 和 逻辑 回归 算法 通过 NO, SO, CO 等 污染 物 指标 对 当日 劳 玫 情况 进行 预测 ， 
又 通过 统计 类 组 件 探查 了 数据 分 布 情况 ， 节 终 通 过 分 析 逻 辑 回 归 的 模型 系数 挖掘 出 
NO; 是 务 殖 的 主要 成 因 。 和 希 于 本 守 例 在 数据 探查 以 及 算法 选择 方面 可 以 为 读者 提供 更 多 
的 启发 。 
































8.7 ”图 三 识别 








越 来 越 多 的 图 三 数据 伴随 看 互联 网 的 发 展 积累 起 来 , 很 多 企业 都 在 探索 如 何 让 图 片 数 
据 产 生 价值 ， 其 中 很 多 成 狼 的 业务 场景 ， 如 刷 脸 文 付 等 已 经 应 用 到 我 们 的 生 藻 中 。 本 守 例 
将 通过 使 用 深度 学 习 框 染 TensorFlow 训练 图 片 模型 ， 完 成 图 片 识 别 的 场景 。 














8.7.1 场景 解析 


我 们 希望 实现 一 个 图 片 识别 的 场景 ， 首 先 ， 需要 一 份 打 标 好 的 图 片 训练 集 ， 这 里 选用 
CIFAR-10 数据 集 , 在 实验 中 会 通过 训练 这 份 标记 好 的 数据 生成 模型 , 通过 这 个 模型 对 一 些 
图 请 进行 智能 识别 。 

















简单 介绍 一 下 CIFAR-10 数据 ，CIFAR-10 是 由 Alex Krizhevsky、Vinod Nair 和 Geoffrey 
Hinton. WRN H F R JE € Y Wl 2& BJ C bx io ÉL Er 2 du se. Xx dn S5 Hh Hb A 
https://www.cs.toronto.edu/ ~ kriz/cifarhtml。 这 份 数 据 包含 6 JIK 32 f x32 BE ARIES 
RKF, X 6 万 张 图 片 包含 10 种 类 别 〈 见 图 8-53) 的 事物 ， 分 别 是 CL. Tip. Eb. HH. 
EE. JU. AHE 2. MRE. X 6 万 张 数据 被 打包 成 6 份 ， 每 份 有 1 万 张 图 乒 ， 其 中 5 
份 用 来 训练 ， 镜 下 的 一 份 用 来 做 测试 。 数 据 产 如 图 8-54 所 示 ， 图 三 被 转 公 成 二 进 制 格 式 ， 
data batch 为 训练 数据 ，test_batch 为 测试 数据 。 
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TEL LT. 
++ 


may te Popa 
ST a 
ami END 





8-53 CIFAR-10 RAR 


batches.meta data batch 1 data batch. 2 data, batch 3 


HTML 


data batch 4 data batch 5 readme.html test batch 





8-54 CIFAR-10 训练 数据 











下 面 介绍 计算 框 染 , 在 第 7 蔓 中 已 经 介绍 了 TensorFlow 的 原理 以 及 基本 用 法 。 本 案例 
中 使 用 基于 TensorFlow 实现 的 开源 算法 项 目 TFLearn 来 实现 训练 网 络 的 搭建 .训练 和 预测 ， 
TFLearn 基于 TensorFlow 的 原生 代码 进行 了 封闭， 使 得 整个 训练 模型 的 搭建 更 为 简 蛙 。 力 
外 ， 因 为 图 三 数据 的 训练 对 计算 资源 要 求 很 品 ， 通 剃 害 要 配合 云 计 算 资 源 来 训练 模型 。 阿 
里 云 机 怖 学 习 平台 已 经 增添 了 深度 学 习 框 淋 TensorFlow， 底 层 的 GPU 资源 可 以 灵活 调度 ， 


























8.7 图片 识别 








大 大 减少 了 训练 时 间 ， 同 时 也 支持 如 TFLearn 等 第 三 方 库 的 调用 。 用 户 在 使 用 过 程 中 只 需 
要 拖拉 “ 读 OSS Bucket” 组 件 以 及 “TensorFlow” 组 件 , 并 上 且 把 训练 数据 和 代码 上 传 至 OSS, 
配置 参数 ， 束 可 以 在 云端 的 GPU 集群 进行 深度 模型 的 训练 ， 如 图 8-55 所 示 。 





Python 代码 文 侍 


eo iE OSS Bucket-2 ) Python a 


输出 目录 保存 Checkpoint 或 者 模型 文件 


EJ TensorFlow-2 


8-55 深度 学 习 组 件 











为 本 条 例 是 基于 深 友 学 习 框 染 的 实现 ， 需 要 进行 训练 模型 的 代码 讲 解 和 参数 适 配 ， 














为 了 方便 读者 理解 ， 我们 选用 本 地 环境 对 部 分 数据 集 进行 倍 里 的 模型 训练 和 了 预测。 读者 在 





学 习 了 本 市 之 后 ， 只 需要 把 代码 中 相关 的 IO 接口 做 修改 ， 就 可 以 在 云端 部 车 整 个 项 目 。 





8.7.2 ”实验 搭建 


下 面 介 


ZI vi 


-Hse 


个 训练 代码 的 实现 ， 实 验 环境 为 4 核 CPU Hla, MacOS AA, ECE 


TensorFlow 以 及 TFLearn 相关 库 。 


训练 代码 train.py 如 下 。 


irom Tuture . import division; print “function, absolute import 


import tflearn 


from 
from 
from 


from 





from 


dJ- 








tflearn. 
tflearn 
learn 
learn. 


learn. 


data utils import Shurrle, rto categorical 

lüyers.core import input data, dropout, fully connected 
dlayers.conv import conv 2d, max pool 2d 
layers.estimator import regression 


data preprocessing import ImagePreprocessing 
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from tflearn.data augmentation import ImageAugmentation 


from 

impor 
impor 
impor 


impor 








impor 


L os 


4- 


t Sys 


t nump 


T 


t pick 


t scip 





y as np 
le 


Y 


tensorflow.python.lib.io import file io 


from tflearn.datasets import cifarl0 


# 数 据 10 函数 


def load data (dirname="cifar-10-batches-py", one hot=False): 


X trai 
Y trai 


for i 


fpath 


X test 


X trai 


X trai 


X test 


x test 


if one 


[] 
[] 


n 


n 


in range(1, 6): 


fpath = os.path.join (dirname, "data batch ' + str(i)) 


data, labels 


if i == 
X train 
X train 
else: 
X train 
Y train 


load batch (fpath) 


data 


labels 


np.concatenate([X train, data], axis=0) 


np.concatenate([Y train, labels], axis=0) 


= os.path.join (dirname, 'test batch') 


7 Y test = load batch (fpath) 


n 


n 


np.dstack((X train[:, :1024], X train[:, 1024:2048], 


X trainlir 20481) 7 255- 


np.reshape(X train, [-1, 32, 32, 3]) 


= np.dstack((X test[:, :1024], X test[:, 1024:2048], 


X test ty, 2048:71) ) £ 255: 


= np.reshape(X test, [-1, 32, 32, 3]) 


hot: 


8.7 图片 识别 


Y train = to categorical(Y train, 10) 
XY test = to categorical (了 Y test, 10) 
return (X train, Y train), (X test, Y test) 


def load batch (fpath): 
object = 
#origin bytes = bytes (object, 


# with open(fpath, 'rb') as f: 


if -Sys.versron info > (3, 0): 
# Python3 
d = pickle.loads (object, 


else: 


十 


Python2 


Q, 


= pickle.loads (object) 
data = d["data"] 
labels = d["labels"] 


return data, labels 


(X, Y), (X test, Y test) =load data () 


t= Shur Eve (xy) 
to categorical (Y, 10) 


test = 


X, 
Y= 
Yo 10) 


to categorical(Y test, 
# Real-time data preprocessing 
img prep = ImagePreprocessingY() 
img prep add, featüurewise zero center () 
img prep.add featurewise stdnorm() 


img aug = ImageAugmentation () 


img: aug.add random flap leftrighEl) 








img aug.add random rotation(max angle=25.) 


# 构建 卷 积 网 络 


network = input data(shape-[None, 32, 32, 


file io.read file to string (tpath) 


encoding='latinl') 


encoding='latinl') 


3], 
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data preprocessing=img prep, 
data augmentation=img aug) 
network = conv 2d(network, 32, 3, activation='relu') 
network = max pool 2d(network, 2) 
network = conv 2d(network, 64, 3, activation='relu') 
network = conv 2d(network, 64, 3, activation-'relu") 
network = max pool 2d(network, 2) 
network = fully connected(network, 512, activation-'relu') 
network = dropout (network, 0.5) 
network = fully connected(network, 10, activation-'softmax') 
network = regression(network, optimizer-'adam', 
loss-' categorrcal erossentropy', 
learning rate=0.001) 
model = tflearn.DNN(network, tensorboard verbose-0) 


# 模 型 训练 

model.fit(X, Y, n epoch=30, shuffle=True, validation set=(X test, Y test); 
show metrvc-True, batoh 61.76-96, run id-"criratci0 onn") 

# 模 型 存储 


model.save('classifier.tfl') 


train.py 这 段 代 码 根 据 TFLearn 的 官网 案例 进行 了 改造 ， 将 数据 读 取 方式 从 原来 的 互联 
网 下 载 改 为 直接 读 取 本 地 “cifar-10-batches-py” 文 件 夹 下 的 图 片 。 有 具体 的 函数 说 明 如 下 。 


e load_data() 国 数 以 及 load_batch() 国 数 主要 负责 读 取 本 地 数据 。 




















e conv_2d(network, 32, 3, activation='relu) 国 数 是 构造 郑 积 层 (FEUER ES CNN £T 
2H RU )o 


e max pool 2d(network, 2) 为 构造 池 化 层 〈 详 见 深 度 学 习 CNN 介绍 章节 )。 


e fully connected(network, 512, activation='relu) 构 造 全 连接 ( 详 见 深度 学 习 CNN 介绍 


音节 ) 
O 


m 
e modelfit(……) 函 数 执行 模型 的 训练 ， 其 中 n. epoch AWARE TX 
e modelsave(………: ) 是 存储 模型 。 


整体 的 代码 逻辑 是 先 配置 数据 叛 相关 接口 ， 然 后 构建 卷 积 深 度 学 习 网 络 结构 ， 最 后 执 
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行 训 练 并 且 保存 模型 ， 模 型 保存 为 文件 “classifiertt 。 训 练 的 过 程 中 会 不 断 打 印 日 志 ， 








以 通过 指标 “acc” 观 察 模型 的 惟 硝 率 ， 日 志和 穿 图 如 图 8-56 所 示 。 


Training Step: 521 | total loss: 1.26686 
Training Step: 521 | total loss: 1.26686: 0.5379 | val loss: 1. val acc: 
| Adam | epoch: 001 | loss: 1.26686 - acc: 0.5379 | val loss: 1. val acc: 


: 1042 | total loss: 1.05444 

: 1042 | total loss: 1.05444 Q0. val loss: 0. val acc: 
| Adam | epoch: 002 | loss: 1.05444 - acc: 0. val loss: ð. val acc: 
000/50000 


Training Step: 1563 | total loss: 0.98562 

Training Step: 1563 | total loss: 0.98562 0. val loss: Q0. val acc: 
| Adam | epoch: 003 | loss: 0.98562 - acc: 0. | val loss: 0. val acc: 
000/50000 





8-56 日 志 截 图 











有 了 预测 模型 ， 接 下 来 介绍 如 何 通 过 模型 进行 预测 。 预 测 代码 predict.py 如 下 。 


from future import division, print function, absolute import 


import tflearn 

from tflearn.data utils import shuffle, to categorical 

from tflearn.layers.core import input data, dropout, fully connected 
from tflearn.layers.conv import conv 2d, max pool 2d 

from tflearn.layers.estimator import regression 


from tflearn.data preprocessing import ImagePreprocessing 





from tflearn.data augmentation import ImageAugmentation 
from tenusorflow.python.lib,.io import file io 

import os 

import sys 

import numpy as np 


import pickle 








import scipy 


from tflearn.datasets import cifarl0 


der Load data(dirname-"oirar-l0-batohes-py"', one hort-False): 
X train = [1] 
X train = [] 
for i in range(1, 6): 
fpath = os.path.join (dirname, “data batch ' + str(i)) 


data, labels = load batch(fpath) 
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if i == 
X train o data 
Y prarm-—- labels 
else: 
A train = np.concatenate([X train; data], axis=0) 
Y train np.concatenate([Y train, labels], axis=0) 


fpath = os.path.join (dirname, test batch') 


A test, Y test = load batch (fpath,) 


X train np.dstack((X train[:, :1024], X train[:, 1024:2048], 


X Gratin, 2040s] 4 255; 


X train = np.reshape(X train, [-1, 32, 32, 3]) 
X test = np.dstack((X test[:, :1024], X test[:, 1024:2048], 
X testes A0481) 7255; 


X test = np.reshape(X test, [-1, 32, 32, 3]) 


if one hot: 
r train = to categorical(Y train, 10) 


Y test = to categorical (了 Y test, 10) 


return (X train, Y train), (X test, Y test) 
def load batch (fpath): 
object. e-rrbe xo.read rtrle- to string(fpath) 
#Origin bytes = bytes (object, encoding-'latinl') 
# with open(fpath, 'rb') as f: 
if sys.version info > (3, 0): 
# Python3 
d = pickle.loads (object, encoding='latinl') 
else: 
# Python2 
d = pickle.loads (object) 
data = d["data"] 
labels = d["labels"] 


return data, labels 


, 


8.7 图片 识别 


(X, Y), (X test, Y test) =load data() 
Ay = BULLE Le (Xx, x) 

Y = to categorical (Y, 10) 

Y 


test = to categorically. test, 10) 


# Real-time data preprocessing 

img prep = ImagePreprocessing () 

img prep.add featurewise zero center () 
img prep.add featurewise stdnorm() 

img aug = ImageAugmentation () 


img dug. ddd Tandom tap) chet tr ugh () 








img aug.add random rotation (max: angle-25.) 
network = input data (shape=[None, 32, 32, 3], 
data preprocessing=img prep, 


data augmentation=img aug) 











network = conv 2d(network, 32, 3, activation='relu') 

network = max pool 2d(network, 2) 

network = conv 2d(network, 64, 3, activation='relu') 

network = conv 2d(network, 64, 3, activation='relu') 

network = max pool 2d(network, 2) 

network = fully connected(network, 512, activation='relu') 

network = dropout (network, 0.5) 

network = fully connected(netwOrk, 10, activation="sottmax") 

network = regression(network, optimizer-'adam', 
loss='categorical crossentropy', 
learning rate=0.001) 

model = tflearn.DNN(network, tensorboard verbose-0) 

# 导 入 模型 

model.load("classifier.tfl") 

导入 预测 集 


img = scipy.ndimage,.imread('bird mount bluebird.jpg', mode-"RGB") 


img = scipy.misc.imresize(img, (32, 32), interp="bicubic") .astype(np.float32 


casting-'unsafe') 
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# 打 印 预测 结果 
prediction = model.predict([img]) 


print (prediction[O0]) 





预测 代码 predict.py 在 注释 “导入 模型 ”之 前 的 部 分 与 训练 代码 train.py 相同 ， 这 部 分 
的 功能 是 构建 与 训练 数据 相同 的 训练 网 络 。 下 面 介绍 predict.py 一 些 具体 的 国 数 意义 。 


e model.load("classifier.tfl")， 导 入 train.py 训 | 练 生成 的 预测 模型 classifiertfl。 


e scipy.ndimage.imread('bird_mount_bluebird.jpg，mode="RGB") , & A Fil WM) A Fr 
bird_mount_bluebird.jpg， 这 是 一 张 从 网 络 上 随机 下 载 的 关于 鸟 的 图 片 ， 如 图 8-57 
所 示 。 








8-57 iAH 


e prediction = model.predict([img]) 中 , prediction # zr AY Æ Be AY x Eg Fr 
bird. mount, bluebird.jpg 的 预测 结果 。 














最 终 的 预测 结 末 打印 出 来 是 一 个 向 量 如 下 。 


[5.074254200593081e-38, 0.0, 1.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0] 








ANAR HEA 10 TRAR, RAAR R RET BOW A E BEE 
事物 的 概率 。 这 10 AFRIDI WAL. TUE. B. 5n. NB. 70. AE. H5. MRE, 








我 们 看 到 有 两 个 非 零 字 段 ， 结 打 与 权重 的 对 应 关系 如 下 。 
e KHL: 5.074254200593081 x e?*, 


e &: ls 
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之 所 以 得 到 这 样 的 结 末 ,很 有 可 能 是 因为 乌 和 WEITER Le ARAM, 最终 
乌 的 权重 大 于 飞机 的 权重 ， 所 以 预测 结 末 古 鸟 ， 跟 预测 集 图 片 相 符合 。 

















8.7.3 小 结 


本 案例 介绍 了 如 何 通过 Tensorflow 的 第 三 方 算 法 包 TFLearn 对 CIFAR-10 数据 进行 训 
练 ， 并 最 终 预测 实现 了 图 片 识别 场景 。 本 书 的 实验 环境 为 本 地 基于 4 核 CPU 资源 的 训练 ， 
受 限于 计算 资源 ,没有 办 法 将 模型 训练 成 比较 理想 的 状态 。 因 此 在 实际 的 业务 场景 下 ， 往 
往 需 要 借助 云端 分 布 式 的 GPU 资源 来 提高 训练 效率 。 增 加 训练 数据 ,提升 算 法 网 络 深 度 ， 
增加 算法 迭代 次 数 都 是 提升 模型 精度 的 有 效 手段 。 
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本 章 针对 几 个 比较 常见 的 业务 逻辑 场景 进行 介绍 ,这 些 场景 覆盖 了 医疗 、 金 融 、 电 商 
和 天 气 等 行业 ， 底 层 使 用 了 第 5 章节 的 分 类 、 回 归 、 聚 类 、 文 本 、 关 系 图 算法 以 及 第 6 章 
介绍 的 深度 学 习 框架 。 所 有 案例 都 包含 了 从 场景 抽象 、 数 据 预 处 理 、 特 征 工程 、 训 练 以 及 
评估 的 全 过 程 , 笔者 期 望 通过 这 些 案例 可 以 帮助 读者 树立 如 何 通过 数据 挖 握手 段 解决 问题 
的 方法 论 。 所 有 案例 都 可 以 在 阿里 云 机 器 学 习 平台 中 实践 ， 相 关 数 据 集 也 在 阿里 云 机 器 学 
习 产 品 中 提供 ， 需 要 数据 的 同学 也 可 以 访问 以 下 网 址 自行 下 载 。 
































1) UCI 数据 集 : http://archive.ics.uci.edu/ml/datasets.html。 








2) 深度 学 习 使 用 的 图 片 数 据 集 : https://www.cs.toronto.edu/ ~ kriz/cifar.html. 








qu 


3) SAK SAGE: http://beijingair.sinaapp.com/. 
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前 面 讲 的 都 是 数据 挖掘 层面 的 东西 ， 介 绍 了 数据 的 预 处 理 、 特 征 工程 和 机 器 学 习 等 理 
论 ， 并 且 通 过 第 8 章 业 务 解决 方案 讲解 了 如 何 使 用 机 器 学 习 算法 解决 实际 问题 。 本 章 其 实 
是 对 数据 建 模 理论 的 描述 ， 知 识 图 谱 一 直 是 笔者 比较 感 兴趣 的 一 个 领域 。 通 过 前 面 的 章节 
可 以 了 解 到 ， 使 用 算法 解决 问题 的 时 候 都 是 带 有 强 目 的 性 的 。 例 如 ， 通 过 逻辑 回归 做 一 个 
心脏 病 预 测 模型 ， 需 要 去 收集 心脏 病 相 关 的 数据 ， 又 或 者 想 通过 CNN 生成 一 个 小 猫 面部 
特征 识别 模型 ， 则 需要 去 收集 小 猫 面部 数据 。 在 做 这 些 训练 的 时 候 是 带 有 极 强 的 主观 目的 
性 ， 但 是 世界 上 的 知识 总 量 无 法 计数 ， 而 且 每 种 知识 之 间 可 能 都 会 存在 某 种 关系 ,不 可 能 
穷尽 训练 每 种 知识 的 逻辑 模型 因此 如 何 挖 气 这 些 隐 含 知识 之 间 的 关系 可 能 是 人 类 下 一 步 
需要 关注 的 重点 ， 知 识 图 谱 就 是 这 种 挖掘 事物 隐 含 关系 的 一 种 方式 ,下 面 我 们 用 一 章 的 篇 
幅 来 介绍 知识 图 谱 。 


























































































































9.1. 未 来 数据 采集 








未 采 的 世界 是 什么 慎 的 , 或 许 有 新 的 数据 存储 制式 , 或 者 在 数据 采集 和 处 理 上 有 突破 性 
的 进展 , 没有 人 可 以 预料 到 。 但 是 在 笔者 心中 ， 人 工 智能 的 未 米 会 建立 在 数据 共 孚 和 数据 互 
通 的 基础 上 ， 我 更 想 把 未 来 的 整个 数据 世界 称 为 “大 数 仓 "。 世 界 大 数 仓 具 备 哪 些 特 点 呢 ? 


(1) 统一 的 数据 标准 。 数 据 标准 主要 体现 在 数据 的 采集 规 沁 和 数据 的 形态 。 笔 者 六 妆 
在 与 客户 的 接触 中 ， 特 别 是 传统 行业 的 和 客户， 党 剃 会 被 问 到 这 样 的 问题 “我 该 末 集 哪些 
数据 ? ”目前 很 多 行业 在 数据 采集 方面 部 没有 统一 的 标准 ， 如 做 互联 网 医疗 的 公司 ，10 
家 公司 不 有 10 种 个 同 的 数据 采集 标准 ， 每 个 公司 的 数据 录入 数据 库 后 字段 部 各 不 相间 。 
如 末 一 个 行业 没有 统一 的 数据 标准 将 会 造成 巨大 的 资源 浪费 。 因 为 数据 采集 回来 都 古 要 经 
过 算法 处 理 的 ， 如 条 10 家 不 同 公司 的 数据 存储 成 10 种 不 同 格 式 ， 那 就 意味 看 需要 开发 至 







































































« 


258 | 第 9 章 
知识 图 谱 








D> 10 种 数据 接口 的 算法 ， 这 梓 束 造成 了 一 侠 算 法 无 法 在 一 个 行业 里 复 用 的 情况 。 


设想 一 下 ， 如 朱 每 个 行业 都 有 一 侠 标 准 的 数据 格式 ， 如 让 W3C 制定 标准 来 约束 数据 
KR, IBZ BUR ORG IAG ean TTA CRS SETS ) 的 角度 来 看 ， 
TA eR a TAI AOR Hs. IPR Ee TA i IL, 
无 疑 会 大 大 推动 数据 采集 终端 的 发 展 ， 并 且 能 够 降低 成 本 。 从 数据 产 本 号 来 看 ， 如 末 标 八 
统一 ， 将 会 减少 数据 交换 的 隔 内 ， 因 为 不 同 公 司 的 业务 点 可 能 各 不 相同 ， 如 采 可 以 实现 万 
便 的 数据 共 圣 ， 则 将 会 加 速 业 务 扩展 的 步伐 。 从 数据 处 理 的 角 肛 来 看 ， 如 末 输 入 参数 统一 
标准 ， 那 么 相同 的 一 僚 自 法 或 者 程序 可 以 复 用 到 整个 领域 ， 这 样 会 优 进 整个 领域 中 开源 项 
目的 开发 ， 促 进行 业 整 个 上 下 游 的 发 展 。 


(2) 行业 间 连 通 。 目 前 很 多 互联 网 行业 采集 个 人 行为 数据 之 后 都 会 做 一 件 事 ， 束 是 人 
物 画 像 。 人 物 画 像 是 指 通 过 信物 的 一 些 行为 ， 挖 据 这 个 人 的 属性 。 例 如 ， 我 们 有 一 个 人 的 
Pa SSR, WRIA AA ASR EAE, ABARAT Ha GR AY Ee SCE, he rk 
PE AVR AJET OU A ME Bc, ES fre n] APE EB A ANT] SS 
Fe BIN Oe PT Ez ATHE A TA]. PERLES p SHU SE BIS A HERR G, BAIAR 
集 到 人 的 口味 数据 。 如 果 可 以 把 各 行 各 业 的 数据 通过 一 个 主键 天 联 起 来 , 以 人 为 单位 来 看 ， 
束 可 以 获得 每 一 个 人 完整 的 用 户 画 像 , 有 了 这 样 完整 的 用 户 画 像 之 后 就 可 以 做 很 多 个 性 化 
的 推 存 工作 。 例 如 ， 当 一 个 人 要 硅 修 房 于 之 前 ， 疤 修 公 司 藉 通过 这 个 人 的 购物 行为 发 现 了 
他 最 哥 欢 的 颜色 是 蓝 色 , 最 辟 欢 的 形状 下 圆 形 , AI Ai th a a AS 
从 而 增加 成 交 概 率 并 捉 升 用 户 满意 度 。 单 一 行业 的 数据 是 有 限 的 ， 只 有 连通 了 不 同行 业 的 
数据 ， 实 现 数据 互通 ， 才 能 让 数据 实现 更 大 的 价值 。 行 业 间 的 数据 连通 将 会 建立 人 与 人 、 
人 与 物 、 物 与 物 之 间 的 关联 ， 大 大 地 提升 生活 的 智能 化 。 


(3) 数据 流转 的 目 动 化 。 人 类 大 规模 地 开始 采集 和 利用 数据 古 近 10 年 才 开始 的 ， 对 
整个 数据 的 条 集 、 存 储 和 分 析 过 程 都 还 保留 在 很 基础 的 阶段 ， 这 其 中 需要 大 量 的 人 工 十 预 
才能 跑 通 整个 流程 。 示 来 的 数据 知识 图 谱 建 模 ， 这些 数据 流转 的 过 程 应 该 会 实现 完全 的 目 
BM. AREF SAT PENIS HEURE EL, OER EVP RT, ABUT A 
TE, MIRTE, APTA BOE GRE o ARG EIA BVA St BENT El 
数据 中 心 ， 人 类 会 统一 建立 数据 中 心 用 来 存储 全 世界 终 闹 采集 过 来 的 数据 。 效 据 中 心 会 
一 套 完 整 的 数据 分 析 体 系 ， 包 括 数据 的 ETL、 特 征 挖 据 、 算 法 计算 以 及 结果 的 返回 。 整 个 
数据 的 流转 体系 完全 目 动 化 ， 人 类 无 感知 地 被 采集 数据 ， 并 且 圣 受 看 大 数据 市 来 的 便捷 社 
会 。 例 如 ,汽车 的 目 动 黎 驶 ， 人 们 只 要 坐 在 汽车 里 ,并且 告诉 汽车 要 去 的 目的 地 ,汽车 会 
ARADO ea, BCE UDR PAAR Ot EAA ERT ek, LEB 
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车 以 最 大 的 运行 速度 平稳 行驶 。 


这 束 是 笔者 眼中 的 世界 大 数 仓 ， 一 切 事物 的 行为 文 配 都 由 历史 和 现实 的 数据 文 返 ， 整 
个 生活 井井有条， 并 且 可 以 实现 完全 的 智能 化 。 数 据 在 为 人 类 服务 ， 并 且 不 断 地 生成 和 处 
理 新 的 数据 ， 经 过 迁 代 不 断 提 噩 数据 的 流转 效率 和 惟 确 率 























9.2. AUREAS 





或 许 未 来 世界 的 所 有 知识 会 连 成 一 张大 图 ， 这 个 图 叫 作 知 识 图 谱 。 知 识 图 谱 能 做 什么 
NE? 下 面 这 个 小 例子 将 为 您 揭 瞬 。 在 Google 上 面 搜索 问题 “姚明 的 老 交 是 蕉 ”的 时 候 ， 
传统 的 搜索 引擎 是 根据 关键 字 匹 配 规则 进行 信息 查询 的 , 所 以 传统 的 搜索 引擎 应 该 会 迟 回 

包含 “姚明 ”“ 老 效 ” 这 些 关 键 字 内 容 的 信息 。 但 是 Google 可 以 智能 地 返回 问题 的 答案， 
而 不 是 单单 包含 问题 关键 字 的 内 容 ， 这 其 中 的 技术 下 是 知识 图 谱 《〈 见 图 9-1). 
































Google 。 姚明 的 老婆 是 谁 


About 468,000 results (0.37 secon ds) 


Yao Ming / Spouse 


Ye Li 


m. 2007 


Ye "The D" Li is a Chinese professional basketball player who played for the China women's national 
basketball team at the 2004 Summer Olympics. Ye met Chinese basketball player Yao Ming at the age of 
seventeen in 1998. Wikipedia 


More about Ye Li 





9-1 搜索 结 
知识 图 谱 把 客观 事物 抽象 成 实体 ， 通 过 关系 表示 实体 间 的 连接 〈 见 图 9-2 )。 


当 我 们 搜索 “姚明 的 老 效 是 礁 ” 的 时 候 , 自 完 进行 文本 分 析 并 拆 解 出 一 个 实体 一 一 “ 姚 
BH", 一 个 天 系 一 一 “夫妻 天 系 ”， 然 后 可 以 在 知识 图 详 中 进行 图 查询 ， 找 到 这 个 实体 和 关 
系 的 指向 ， 最 终 实现 信息 的 格 b2, ARENE 至 运用 在 很 多 搜索 引擎 公司 里 ， 拟 在 提高 搜 
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索 的 智能 程度 。 


Google 的 笠 格 博士 在 介绍 知识 图 谱 的 时 候 提 到 :“The world is not made of strings, but is 
made of things”。 知 识 图 谱 的 核心 含义 古 将 真实 世界 中 存在 的 实体 和 概念 抽 角 出 来 。 知 识 
图 谱 包 括 3 CHR: 实体 、 关 系 和 属性 。 实 体 是 客观 事物 ， 关 系 和 属性 是 事物 间 的 连 线 。 
如 图 9-3 所 示 ， 姚 明 表 示 一 个 实体 ， 姚 明 的 配 侦 是 叶莉 表示 一 种 实体 和 实体 间 的 天 系 ， 叶 
利 的 age 是 34 表示 一 种 实体 和 属性 的 关系。 


姚明 


wen 


图 9-2 夫妻 关系 图 9-3 关系 图 谱 





























34(Int) 














知识 图 谱 可 以 看 作 未 来 数据 抽象 的 一 种 模式 ，W3C 作为 Web 技术 领域 取 具 权威 和 影 
响 力 的 国际 中 立 性 技术 标准 机 构 制 定 了 一 套 知识 图 谱 的 拉 述 标准 ,这 租 标 准 叫 作 资 源 描述 
JEŽ ( Resource Description Framework, RDF )。RDF 是 一 套数 据 交 换 的 标准 模型 ，RDF 最 
大 的 特点 是 可 以 将 不 同 格式 的 数据 进行 关联 ， 而 且 数 据 一 旦 导入 ,在 上 层 的 逻辑 架构 可 以 
随意 改动 而 不 会 对 底层 的 建 模 逻 辑 造成 影响 。RDEF 使 用 URL 来 搬 述 不 同 实体 之 间 的 联系 ， 
最 终 知 识 图 谱 的 模型 保存 为 类 似 于 XML 格式 的 文件 ， 通 过 这 样 简 早 的 模型 可 以 让 结构 化 
和 半 结 构 化 的 数据 实现 混合 ,并 且 在 不 同 的 应 用 场景 下 使 用 。 数 据 图 谱 的 构建 者 只 需要 按 
Ha RDF 的 标准 把 数据 关系 写成 知识 图 谱 模 型 文件 ， 然 后 丈 可 以 用 SPARQL 语句 对 知识 图 
谱 进 行 查 询 〈 见 图 9-4 )。 
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SELECT DISTINCT ?x 
WHERE { 


: ?y 国籍 ?x. 
查询 res: 姚 明 配偶 ?y. 
} 
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MACET Y Sri AR A RR TT VA A o. SEDI ATR UX 
是 通过 实体 和 实体 间 的 关系 快速 检索 信息 的 话 ， 那 就 大 大 低估 了 知识 图 谱 的 作用 。 知 识 图 
谱 最 核心 的 功能 应 该 是 推理 。 推 理 并 不 是 上 发现 新 知识 ， 而 是 对 图 谱 中 隐 减 关系 的 发 现 。 


知识 图 谱 的 推理 是 如 何 实现 的 呢 ? 这 主要 是 因为 知识 图 谱 巧 妙 地 运用 了 集合 论 的 理论 。 
知识 图 谱 可 以 对 实体 进行 抽象 ， 有 全集 和 子 集 的 概念 。 举 个 例子 ， 我 们 知道 姚明 和 叶莉 虱 尽 
篮球 运动 员 ， 可 以 抽 角 出 一 个 实体 是 “ 息 球 运动 员 ”,，“ 息 球 运动 只” 是 一 个 案 合 ， 叶 和 攻 和 姚 
WADE PH TR, PORE ERIE, IX— UBER EB SACAR RER. 
“Pe IR” ANKAA EME, 8d “fies”, MAA ET AEDn” WTE 
PERERA T Xe EE. Tre, TEX MEE AIRA, ACHE "Pm XX 
个 属 竹 。 因 为 属性 可 以 直接 继承 ,所 以 可 以 利用 这 种 集合 关系 进行 推理 。 例 如 ， 扣 一 个 问题 
“ERE EPAPER AC, TYRES Pm?” Re PORCH DET, ER Be 
姚明 的 第 球 队 队友 ， 所 以 王 冶 名 也 是 秘 球 运动 员 ， 繁 球员 动员 具有 个 子 蜗 的 属性 ， 所 以 王 冶 
却 的 个 子 也 高 。 对 人 类 来 讲 ， 这 只 是 简单 的 常识 性 问题 ， 但 是 如 果 机 器 可 以 完成 上 述 的 推理 
过 程 ， 将 大 大 推动 人 工 和 售 能 的 发 展 ， 这 一 切 的 根源 来 日 于 知识 图 谱 。 所 以 能 合 建 并 祝 话 全 音 
各 观 世 界 实体 、 关 系 和 属性 的 知识 图 谱 十 能 否 实现 智能 推理 的 关键 ， 目 前 这 项 工作 还 需要 大 
量 的 人 工 十 预 才能 进行 ， 未 来 我 们 布 望 这 里 可 以 实现 真正 的 目 动 化 。 
















































































9.3. 知识 图 请 开源 工具 


根据 9.2 万 的 介绍 ， 未 来 大 数据 智能 化 推理 要 依赖 于 知识 图 谱 架 构 。 虽 然 将 整个 客观 
世界 的 实体 抽象 化 看 似 很 遥远 , 但 是 很 多 高 校 和 开 产 组 织 已 经 在 做 这 方面 的 研究 并 且 产 出 
了 一 些 工具 ， 下 面 将 挑选 比较 成 玖 的 一 玖 工具 进行 重点 介绍 。 


Protégé 是 斯 坦 福 大 学 医学 院 生 物 信 息 人 研究 中 心 基 于 Java 语言 开发 的 本 体 编辑 和 知识 
获取 软件 ， 主 要 是 用 于 语义 网 中 本 体 的 构建 ， 提 供 了 本 体 概念 的 类 关系 、 属 性 和 实例 的 构 
建 ， 并 且 屏 散 了 基体 的 本 体 描 述 语言 ， 用 户 只 需 在 概念 层次 上 进行 领域 本 体 模型 的 构建 ， 
即 可 实现 知识 图 谱 的 构建 和 推理 。Protégé EKA IKE, HP RG BSR 
http://protege.stanford.edu/ 并 且 下 载运 行 即 可 。 



































如 图 9-5 Hrzs, Protégé 是 类 似 于 Eclipse 的 一 至 实体 编辑 侨 ， 跟 Eclipse 设计 原理 相似 
We, Protégé 是 一 个 平台 ,可 以 基于 这 个 平台 开发 插件 。 目前 已 经 有 很 多 可 视 化 组 件 、 数 
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据 库 组 件 和 推理 组 件 在 这 个 平台 上 


yop 


121], 


可 以 基于 这 个 平台 编辑 实体 间 的 关系 。 


uni (http://uob.iodt.ibm.com/univ-bench-dl.owl) : [/Users/garvin/Documents/lab/Protege- 1.15/test/16.owl] 





[<] > ® uni (http:/ /uob.iodt.ibm.com/univ-bench-dl.owl) 








Active Ontology x | Entities x | Individuals b! 
Ontology header 

Ontology IRI http://uob.iodt.ibm 
Ontology Version IRI 





.com/univ-bench-dl.owl 


Annotations 
comment 
An university ontology for benchmark tests. Language Level: OWL-DL SHION(D). 
This ontology are built on basis of Lehigh Benchmark Ontology, 
http://www. lehigh.edu/~zhp2/2004/0401/univ-bench.owl 
versioninfo 
benchmark-lite.owl, ver June 1st, 2005 


label 
Univ-benchmark Ontology 





| Ontology imports | Ontology Prefixes | General class axioms 





O88 § Ontology metrics 


Metrics 

Axiom 

Logical axiom count 
Class count 

Object property count 
Data property count 
Individual count 

DL expressivity 


Class axioms 

SubClassOf axioms count 
EquivalentClasses axioms count 
DisjointClasses axioms count 
GCI count 

Hidden GCI Count 


Object property axioms 
SubObjectPropertyOf axioms count 





Imported ontologies 


Direct Imports 


Indirect Imports 


9-5 Protégé 界面 


To use the reasoner click Reasoner > Start reasoner 


9-6 中 展示 了 person 和 university 之 间 的 has a degree from 关系 。 


uni (http:/ /uob.iodt.ibm.com/univ-bench-dl.owl) : [/Users/garvin/Documents/lab/Protege-1. 


[| € uni (http:/ /uob.iodt.ibm.com/univ-bench-dl.owl) 








ctive Ontology x| Entities x | Individuals by class x | OntoGraf x | on 





lass hierarchy | Class hierarchy (inferred) | 


ARQL x 











Class hierarchy: ‘university department’ 


eTe] x] 
w Engineering 
© FineArts 
© HumanitiesAndSocial 
© Science 
© ‘graduate student’ 
@Insterest 
®Man 
® organization 
^ institute 
® program 
®'research group' 
> @school 


®universi 
D'university department’ 


© 'People who have at least 3 hobbies' 


© person 
® publication 
® schedule 


® students who have plenty of leisure time’ 


®Woman 
® Work 


Dbject property hierarchy 
Jbject property hierarchy: 'has as an alumnus' 


[ex 
æ topObjectProperty 
> æ'has a degree from" 
> æ'has as a member’ 
@ ‘has as a research project’ 
@ hasMajor 
@ hasSameHomeTownWith 


@'is a friend of 
@'is a teaching assistant for’ 


Annotations | Object Property Usage | 





MSG) g Annotations: 'has as an alumnus' 


Annotations 
label 
has as an alumnus 


Characteristics: ‘ha: BMA § Description: 'has as an alumnus' 


_ | Functional 
Inverse functional 


_| Transitive 


_| Symmetric 


_| Asymmetric 
latypes u 
Reflexive 


LI | | Irreflexive 





9-6 KARA 


Equivalent To 
SubProperty Of 


Inverse Of 


@'has a degree from’ 


Domains (intersection 


® university 


Ranges (intersection) 


© person 
Disjoint With 


SuperProperty Of (Chain 


Show Inferen| 
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257 Jk, 用 户 可 以 通过 可 视 化 组 件 来 查看 ( 见 





Æ 


把 实体 间 的 关系 、 数 据 和 集合 都 表示 清 
9-7 )。 








I 
l 
j 
| 
I 
| 
| 
I 
I 
I 
l 
I 
l 
| 
l 
| 
l 
l 


@ Thing fo 3 
— eS 








9-7 实体 可 视 化 关联 








定义 实体 的 概念 了 之 后 惑 可 以 连接 真实 的 数据 ， 这 里 接 入 的 是 本 地 的 Mysql 2305/8 2 


( 见 图 9-8 )。 





atasource editor 

OBDA Model information 

Number of sources: 2 

Connection parameters 
Datasource Name: uobm 

Connection URL: jdbc :mysql: //obdalin3.inf.unibz.it:3306/uobm 

Database Username : test 

Database Password: 

Driver class: com.mysql.jdbc.Driver 


@ Test Connection 





9-8 数据库 连接 


之 后 灰 可 以 通过 启动 Reasoner， 也 束 是 推理 工具 来 对 一 些 问 题 进 行 推理 。 推 理 的 问题 


可 以 通过 Sparql 语句 来 搞 述 ( 见 图 9-9 )。 
Protégé 是 目前 比较 成 就 的 一 款 开 源 知 识 图谱 构 建 工具 , 包含 了 整个 图 谱 生 成 、 可 视 化 


展现 及 推理 的 流程 。 通过 这 个 工具 ,用户 可 以 实现 构建 知识 图 谱 的 半 台 , 并 具备 推理 功能 。 
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相信 随 看 知识 图 谱 在 行业 中 的 应 用 越 来 越 三 这 ,会 有 更 多 的 优秀 工具 诞生 。 知 识 图 谐 作 为 
大 效 据 的 载体 也 会 更 多 地 被 人 们 使 用 ， 以 实现 智能 推理 和 信息 的 智能 检索 。 


€ Launcher File Edit View :ESE Tools Refactor Windo 














3 Start reasoner 
eoe 


也 | 中 ® uni (http:/ /uob.iodt.ibm.l 


Active Ontology x Entities x | Individuals by Configure 


SPARQL query: 


PREFIX rdf: «http://www.w3.org/1999/0; , Hermit 1.9.8.3 


PREFIX owl: <http:/ /www.w3.org/ 2002/0 V Quest 1.15.0 (ontop) 
PREFIX rdfs: <http://www.w3.org/2000/¢ None 
PREFIX xsd: <http:/ /www.w3.org/2001/XMLSchema#> 
SELECT ?subject ?object 
WHERE { ?subject rdfs:subClassOf ?object } 





9-9 推理 


9.4. 本章 小 结 








本 草 分 别针 对 未 来 的 数据 采集 方式 、 知 识 图 详 概 述 以 及 知识 图 谱 开 源 工具 3 个 方面 进 
行 了 讲解 。 因 为 机 研学 习 算法 对 数据 的 采集 有 看 较 强 的 依赖 ， 所 以 如 何 把 全 世界 的 数据 有 
BOR Rie ALS ReneS REE A ERE. Fa EER BORA ACR, A MILNER AE 
够 统一 标准 并 且 实 现 互 通 。 有 了 数据 的 采集 体系 ， 冉 把 数据 按照 知识 图 详 的 实体 理论 进行 
THAR, 人们 就 可 以 搭建 出 一 合 图 谱 出 来 , 进而 可 以 基于 知识 图 谱 做 隐 售 知识 的 欣 据 和 推理 。 
我 相信 未 米 知 识 图 谐 理论 一 定 会 在 更 三 的 领域 得 到 应 用 。 
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[Ex www.epubit.com.cn 











异步 社区 的 来 历 
异步 社区 (www.epubit.com.cn) 是 人 民 邮 电 


出 版 社 旗下 IT 专业 图 书 旗 舰 社 区 ， 于 2015 年 8 


HLRVUIS MRR, HAM MMI207! 为 答谢 社区 用 户 ， 


异步 社区 依托 于 人 民 邮 电 出 版 社 20 余年 的 pe: 
IT 专 业 优质 出 版 资源 和 编辑 策划 团队 ， 打 造 传统 
出 版 与 电子 出 版 和 目 出 版 结合 、 纸 质 书 与 电子 书 
结合 、 传 统 印 刷 与 POD 按 需 印刷 结合 的 出 版 平台 ， 
提供 最 新 扩 术 资讯 ， 为 作者 和 读者 打造 交流 互动 
的 平台 。 


社区 里 都 有 什么 ? - uen --" 


Python 机 器 学 习 一 一 预 — e a 机 器 学 习 项 目 开发 实战 
测 分 析 核 心算 法 





免费 电子 书 





立即 获取 
































SLES 


我 们 出 版 的 图 书 涵盖 主流 IT 技术 ， 在 yong M 扩 术 、 数 据 科 学 等 领域 有 众多 经 典 畅 销 图 书 。 
社区 现 已 上 线 图 书 1000 余 种 ， 电 子 书 400 多 种 ， 新 书 实 现 纸 书 、 电 子 书 同步 出 版 。 我 们 还 会 定期 友 
布 新 书 书 讯 。 


社区 内 提供 随 书 附 赠 的 资源 ， 如 书 中 的 守 Cae 
另外 ， 社 区 还 提供 了 大 量 的 免费 电子 书 ， 注册 成 为 社区 用 户 瓯 可 以 免费 下 载 。 


与 作 译 者 互动 


民 多 图 书 的 作 译 痢 已 经 入 驻 社 区 ， 您 可 以 天 注 他 们 ， 咨 询 技术 问题 ， 可 以 阅读 不 断 更 新 的 技术 文章 ， 听 
作 译 者 和 编辑 畅 聊 好 书 育 后 有 趣 的 故事 ， 还 可 以 参与 社区 的 作者 访谈 栏目 ， 回 您 天 注 的 作者 提出 采访 题目 


灵活 优惠 的 购书 
您 可 以 方便 地 下 单 购买 纸 质 图 书 或 电子 图 书 ， 纸 质 图 书 直接 从 人 民 邮 电 出 版 社 书 库 发 货 ， 电 子 书 提供 


多 种 阅读 格式 。 
对 于 重 磅 新 书 ， 社 区 提供 预 售 和 新 书 首 友 服务 ， 用 尸 可 以 第 一 时 间 买 到/ 心仪 的 新 书 。 
用 户 账户 中 的 积分 可 以 用 于 购书 优惠 。100 积分 =1 元 ， 购 买 图 书 时 ， 在， * 里 填 


入 可 使 用 的 积分 数值 ， 即 可 扣 减 相应 金额 。 





Tos fù x 
购买 本 书 的 读者 专 享 异步 社区 购书 优惠 券 。 


使 用 态 法 党 注册 成 为 社区 用 局 宫 在 个 里 购书 有 时 输入 | 57AWG ， 然 后 点 击 “ 使 
用 优惠 码 ”， 即 可 享受 电子 书 8 折 优 惠 〈 本 优惠 券 只 可 使 用 一 次 )。 


纸 电 图 书 组 合 购 头 

















s Jc es ge pmza l 
社区 独家 提供 纸 质 图 书 和 电子 书 组 合 购买 m ef 
方式 ， 价 格 优惠 ， 一 次 购买 ， 多 种 阅读 选择 。 me e 
=a 
社区 里 还 可 以 做 什么 ? ey 
提交 勘误 ` 
您 可 以 在 图 书页 面 下 方 提 交 勘 误 ， 每 条 勘 ee e uv 
误 被 确认 后 可 以 获得 100 积分 。 热 心 勘误 的 读 





者 还 有 机 会 参与 书稿 的 审 校 和 翻译 工作 。 

写作 

社区 提供 基于 Markdown 的 写作 环境 ， 喜 欢 写作 的 您 可 以 在 此 一 试 身 手 ， 在 社区 里 分 享 您 的 技术 心得 
和 读书 体会 ， 更 可 以 体验 目 出 版 的 乐趣 ， 轻 松 实现 出 版 的 梦想 。 

如 果 成 为 社区 认证 作 译 者 ， 还 可 以 享受 异步 社区 提供 的 作者 专 享 特色 服务 。 


会 议 活动 早 知道 
您 可 以 掌握 IT 圈 的 技术 会 议 资讯 ， 更 有 机 会 免费 获 赠 大 会 门票 。 
加 入 异步 


扫 摘 任意 二 维 码 都 能 找到 我 们 : 





社区 网 址 : www.epubit.com.cn 
官方 微 信 : 异步 社区 
Shove: @ 人 邮 异 步 社区 ，@ 人 民 邮 电 出 版 社 - 信息 技术 分 社 


投稿 & 咨询 : contact@epubit.com.cn 


这 是 一 本 难得 的 面向 机 器 学 习 爱 好 者 的 入 门 级 教程 ， 本 书 涉及 机 器 学 习 的 基础 理论 和 深度 学 习 等 相 
天 内 容 ， 内 容 深入 浅 出 。 更 加 难能可贵 的 是 ， 本 书 基于 阿里 云 机 器 学 习 平 台 ， 针 对 7 个 具体 的 业务 场 
景 ， 搭 建 了 完整 的 解决 方案 ， 给 读者 市 来 第 一 手 的 实战 演练 经 验 。 


一 一 阿里 云 资 深 专 家 tam 
机 器 学 习 算 法 正在 逐渐 渗透 到 数据 化 运营 的 各 个 万 面 ， 算 法 和 业务 数据 相 结 合 可 以 大 幅度 地 提高 业 
务 效 率 、 降 低 成 本 。 本 书 以 算法 的 业务 应 用 作为 切入 点 ， 包 含 大 量 的 案例 训 明 ， 非 党 适合 读者 快速 
入 门 。 


一 一 阿里 云 高 级 专家 VES 





W 机 器 学 习 全 流程 的 串联 万 式 ， 包 括 数 据 预 处 理 、 特 征 工程 、 算 法 、 模 型 评估 等 ; 


m 最 昔 用 的 机 器 学 习 算 法 ， 包 括 逻辑 回归 、 随 机 森林 、 文 持 同 量 机 、KMEANS、DBSCAN KEH, 
马尔 科 夫 决策 、LDA、 标 签 传播 等 ; 


m 机 器 学 习 算 法 在 实际 业务 中 的 应 用 ， 涉 及 金融 、 医 疗 、 新 闻 、 电 商 等 诸多 领域 ; 
m 机 器 学 习 的 常用 工具 : R、Spark-MLib、TensorFlow、PAI 等 ; 


m 时 下 最 热门 的 技术 领域 : 深度 学 习 、 知 识 图 谐 等 。 
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